Сервіс транскрипції Vertex

Огляд кейсу

Платформа обробки медіа на базі штучного інтелекту, створена для обробки мільйонів хвилин аудіо- та відеоконтенту. Вона приймає записи освітніх лекцій — на арамейській та англійській мовах — і перетворює їх на чистий, форматований текст з правильним сценарієм, діакритиками, перевіреними посиланнями та тайм-кодованими субтитрами. Коли надходить відеофайл, система автоматично його виявляє, витягує аудіодоріжку та пропускає через одну й ту ж конвеєр транскрипції.

Мета: Створити медіа-конвеєр, здатний обробляти мільйони хвилин контенту та доставляти тексти, субтитри та HLS потоки, готові до публікації - з мінімальним ручним втручанням. Обробляти аудіо та відео через єдину лінію, транскрибувати багатомовний контент із високою точністю та динамічно масштабуватися на Kubernetes для обробки пакетів із понад 300 одночасних записів.

Image

Основна інформація про проект

Індустрії

Індустрії

Платформи освітнього контенту, релігійні установи, медіа видавництва, компанії з електронного навчання, архіви лекцій, академічні бібліотеки контенту.

Послуги

Послуги

Транскрипція ІІ, обробка відео, витяг аудіо, мультибітрейт кодування HLS, створення субтитрів, пакетна організація, перевірка джерел посилань, доставка хмарного зберігання, створення мініатюр і прев’ю.

Рішення

Рішення

Об’єднаний аудіо/відео конвеєр, автоматичне визначення формату, багатомовна транскрипція, конвертація сценарію з діакритиками, поділ на шматки за тишею, зшивання таймштампів, перевірка релігійних посилань, динамічний вибір моделей ШІ.

Технології

Технології

Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM Instances, HLS (m3u8), Асинхронний Python, пул з’єднань, CI/CD конвеєр.

Виклики

Складність змішаних мов

Складність змішаних мов

Аудіо перемикається між арамейською, англійською та іншими мовами під час запису. Були потрібні спеціальні підказки ШІ та багатокрокова обробка тексту для правильного застосування діакритиків і форматування.

Відео та аудіо в одному конвеєрі

Відео та аудіо в одному конвеєрі

Система повинна була обробляти як чисте аудіо, так і відеоконтейнери. Автовизначення на основі FFprobe витягує аудіопотік із будь-якого відеоформату перед обробкою — втручання користувача не потрібне.

Масштабування на мільйони хвилин

Масштабування на мільйони хвилин

Проєктовано з нуля для обробки великих обсягів: повністю асинхронний, паралельний та рідний для Kubernetes з правильним управлінням ресурсами для поглинання пікових навантажень.

Інтелектуальне розбиття для довгих лекційних аудіо

Інтелектуальне розбиття для довгих лекційних аудіо

Лекції часто тривають понад годину. Розбиття на основі виявлення тиші ділить файли природно, а зшивання таймштампів відновлює безперервну хронологію без пропусків і накладень.

Інтелектуальна система повторних спроб для навантаження ШІ

Інтелектуальна система повторних спроб для навантаження ШІ

Сотні одночасних задач ШІ жорстко навантажують провайдера. Інтелектуальна логіка повторних спроб, адаптивне експоненційне затримання та управління чергою забезпечують безперервну роботу конвеєра без втрати задач.

Вибір моделі ІІ для економії коштів

Вибір моделі ІІ для економії коштів

Три рівні моделей ШІ — потужна, швидка та легка — вибираються динамічно в залежності від довжини та складності контенту, забезпечуючи до 60% зниження вартості API для короткого контенту.

Процес

Кожен файл — чи то сирий аудіолекція, чи повний відеозапис — проходить через єдиний автоматизований конвеєр. Вісім послідовних етапів перетворюють його з сирого вхідного матеріалу у готовий до публікації результат, при цьому обробка відео виконується паралельно, щоб нічого не затримувалося.

Виявлення та підготовка медіа

Виявлення та підготовка медіа

FFprobe визначає, чи є файл аудіо чи відео. Для відео аудіодоріжка витягується автоматично. Аналіз тривалості та формату визначає стратегію обробки.

Розділення аудіо за тишею

Розділення аудіо за тишею

Файли довші за 20 хвилин діляться на шматки в природних точках тиші, щоб жодна фраза не обрізалась посередині речення, дозволяючи одночасно паралельно транскрибувати всі частини.

Транскрипція ШІ

Транскрипція ШІ

Кожен шматок надсилається на Gemini Pro або Flash — вибраний залежно від довжини контенту — зі структурованою схемою, що змушує модель повертати таймштампований текст з позначками спікера.

Об’єднання таймлайну

Об’єднання таймлайну

Всі транскрибовані частини зшиваються назад із правильними часовими зсувами в один безперервний документ з точністю вирівнювання таймштампів 99% по всьому запису.

Постобробка тексту

Постобробка тексту

Сирий текст транскрипції проходить конвертацію сценарію, застосування діакритиків, очищення форматування та перевірку посилань на релігійні джерела згідно з зовнішньою базою даних.

Обробка відео (паралельно)

Обробка відео (паралельно)

Поки триває транскрипція, відеомодуль обробляє мультибітрейтне кодування HLS, створення мініатюр, створення прев’ю та обробку мультиаудіопотоків через FFmpeg.

Генерація субтитрів і резюме

Генерація субтитрів і резюме

З кінцевого перевіреного тексту генеруються часовані файли субтитрів (.vtt / .srt) разом із автоматичним метаданим резюме для бібліотеки контенту.

Доставка в хмару

Доставка в хмару

Всі дані — транскрипція, субтитри, резюме, HLS потоки — завантажуються до AWS S3 з посиланнями, які доставляються команді контенту. 100% збереження даних навіть при втраті з’єднання.

Рішення

Ключові особливості рішення

  • Об’єднаний аудіо- та відеоконвеєр FFprobe автоматично визначає формати. Єдина точка входу обробляє MP4, MKV, WebM, MOV і аудіо без ручного конвертування.

  • Багатомовна транскрипція на базі ШІ — Обробляє записи англійською, арамейською та змішаними мовами з підказками, які зберігають мовні межі та застосовують правильні скриптові конвенції.

  • Динамічний вибір моделі ШІ — Рівні Pro, Flash і Flash-Lite обираються автоматично за довжиною файлу та типом контенту — максимізуючи точність і мінімізуючи витрати на API.

  • Потокове передавання HLS з кількома бітрейтами — Паралельна обробка відео створює адаптивні потоки з декількома бітрейтами, мініатюри й прев’ю-кліпи для будь-якого сучасного відеопрогравача.

  • 300+ одночасних пакетних завдань— Kubernetes-native асинхронна архітектура обробляє великі пакети без блокувань. Helm charts керують розгортанням і масштабуванням на ARM-інстансах.

Image

Результати у цифрах

Точність транскрипції

99%

Точність для аудіоконтенту англійською та арамейською з автоматичним застосуванням правильної писемності та діакритичних знаків.

Одночасні завдання

300+

Завдання транскрипції обробляються одночасно з розумним керуванням чергою та адаптивним відстроченням.

Знижені витрати на API

60%

Економія за рахунок динамічного вибору моделей — легші моделі автоматично обробляють коротший контент.

Збереження даних

100%

Нульова втрата даних навіть під час обривів з’єднання з автоматичним синхронізацією після відновлення з’єднання.

Є мільйони хвилин для обробки? Давайте створимо конвеєр!

Розкажіть про вашу проблему з контентом або замовте безкоштовну консультацію — ми запропонуємо рішення, адаптоване до вашого масштабу, мов і вимог до доставки.

Message not sent.
Message not sent.
×
Не знаєте, з чого почати? Ми допоможемо визначити наступні кроки!
Згода на обробку персональних даних
×
Є виклик? Наша команда перетворить його на рішення.
Згода на обробку персональних даних