Сервіс транскрипції Vertex
Огляд кейсу
Платформа обробки медіа на базі штучного інтелекту, створена для обробки мільйонів хвилин аудіо- та відеоконтенту. Вона приймає записи освітніх лекцій — на арамейській та англійській мовах — і перетворює їх на чистий, форматований текст з правильним сценарієм, діакритиками, перевіреними посиланнями та тайм-кодованими субтитрами. Коли надходить відеофайл, система автоматично його виявляє, витягує аудіодоріжку та пропускає через одну й ту ж конвеєр транскрипції.
Мета: Створити медіа-конвеєр, здатний обробляти мільйони хвилин контенту та доставляти тексти, субтитри та HLS потоки, готові до публікації - з мінімальним ручним втручанням. Обробляти аудіо та відео через єдину лінію, транскрибувати багатомовний контент із високою точністю та динамічно масштабуватися на Kubernetes для обробки пакетів із понад 300 одночасних записів.
Основна інформація про проект
Індустрії
Платформи освітнього контенту, релігійні установи, медіа видавництва, компанії з електронного навчання, архіви лекцій, академічні бібліотеки контенту.
Послуги
Транскрипція ІІ, обробка відео, витяг аудіо, мультибітрейт кодування HLS, створення субтитрів, пакетна організація, перевірка джерел посилань, доставка хмарного зберігання, створення мініатюр і прев’ю.
Рішення
Об’єднаний аудіо/відео конвеєр, автоматичне визначення формату, багатомовна транскрипція, конвертація сценарію з діакритиками, поділ на шматки за тишею, зшивання таймштампів, перевірка релігійних посилань, динамічний вибір моделей ШІ.
Технології
Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM Instances, HLS (m3u8), Асинхронний Python, пул з’єднань, CI/CD конвеєр.
Виклики
Процес
Кожен файл — чи то сирий аудіолекція, чи повний відеозапис — проходить через єдиний автоматизований конвеєр. Вісім послідовних етапів перетворюють його з сирого вхідного матеріалу у готовий до публікації результат, при цьому обробка відео виконується паралельно, щоб нічого не затримувалося.
Виявлення та підготовка медіа
FFprobe визначає, чи є файл аудіо чи відео. Для відео аудіодоріжка витягується автоматично. Аналіз тривалості та формату визначає стратегію обробки.
Розділення аудіо за тишею
Файли довші за 20 хвилин діляться на шматки в природних точках тиші, щоб жодна фраза не обрізалась посередині речення, дозволяючи одночасно паралельно транскрибувати всі частини.
Транскрипція ШІ
Кожен шматок надсилається на Gemini Pro або Flash — вибраний залежно від довжини контенту — зі структурованою схемою, що змушує модель повертати таймштампований текст з позначками спікера.
Об’єднання таймлайну
Всі транскрибовані частини зшиваються назад із правильними часовими зсувами в один безперервний документ з точністю вирівнювання таймштампів 99% по всьому запису.
Постобробка тексту
Сирий текст транскрипції проходить конвертацію сценарію, застосування діакритиків, очищення форматування та перевірку посилань на релігійні джерела згідно з зовнішньою базою даних.
Обробка відео (паралельно)
Поки триває транскрипція, відеомодуль обробляє мультибітрейтне кодування HLS, створення мініатюр, створення прев’ю та обробку мультиаудіопотоків через FFmpeg.
Генерація субтитрів і резюме
З кінцевого перевіреного тексту генеруються часовані файли субтитрів (.vtt / .srt) разом із автоматичним метаданим резюме для бібліотеки контенту.
Доставка в хмару
Всі дані — транскрипція, субтитри, резюме, HLS потоки — завантажуються до AWS S3 з посиланнями, які доставляються команді контенту. 100% збереження даних навіть при втраті з’єднання.
Рішення
Ключові особливості рішення
Об’єднаний аудіо- та відеоконвеєр — FFprobe автоматично визначає формати. Єдина точка входу обробляє MP4, MKV, WebM, MOV і аудіо без ручного конвертування.
Багатомовна транскрипція на базі ШІ — Обробляє записи англійською, арамейською та змішаними мовами з підказками, які зберігають мовні межі та застосовують правильні скриптові конвенції.
Динамічний вибір моделі ШІ — Рівні Pro, Flash і Flash-Lite обираються автоматично за довжиною файлу та типом контенту — максимізуючи точність і мінімізуючи витрати на API.
Потокове передавання HLS з кількома бітрейтами — Паралельна обробка відео створює адаптивні потоки з декількома бітрейтами, мініатюри й прев’ю-кліпи для будь-якого сучасного відеопрогравача.
300+ одночасних пакетних завдань — Kubernetes-native асинхронна архітектура обробляє великі пакети без блокувань. Helm charts керують розгортанням і масштабуванням на ARM-інстансах.
Результати у цифрах
99%
Точність для аудіоконтенту англійською та арамейською з автоматичним застосуванням правильної писемності та діакритичних знаків.
300+
Завдання транскрипції обробляються одночасно з розумним керуванням чергою та адаптивним відстроченням.
60%
Економія за рахунок динамічного вибору моделей — легші моделі автоматично обробляють коротший контент.
100%
Нульова втрата даних навіть під час обривів з’єднання з автоматичним синхронізацією після відновлення з’єднання.