Сервіс транскрипції Vertex

Огляд справи

Платформа обробки медіа на основі штучного інтелекту, розроблена для обробки мільйонів хвилин аудіо- та відеоконтенту. Вона приймає записи освітніх лекцій — арамейською та англійською мовами — і перетворює їх у чистий, відформатований текст із правильним сценарієм, діакритиками, перевіреними посиланнями та синхронізованими субтитрами. Коли надходить відеофайл, система автоматично його виявляє, витягує аудіодоріжку та пропускає через ту саму транскрипційну лінію.

Мета: Побудувати медійну лінію обробки, здатну опрацьовувати мільйони хвилин контенту та доставляти текст, субтитри та HLS-потоки, готові до публікації - з мінімумом ручної роботи. Обробляти як аудіо, так і відео через єдину лінію, транскрибувати багатомовний контент із високою точністю та динамічно масштабуватись у Kubernetes для обробки пакетів із 300+ одночасних записів.

Image

Ключова інформація про проект

Індустрії

Індустрії

Платформи освітнього контенту, релігійні установи, медіа-видавництва, компанії з електронного навчання, архіви лекцій, академічні бібліотеки контенту.

Послуги

Послуги

Транскрипція за допомогою ШІ, обробка відео, витяг аудіо, багатобітрейтне кодування HLS, створення субтитрів, організація пакетної обробки, перевірка джерел, доставка з хмарного сховища, генерація мініатюр та попереднього перегляду.

Рішення

Рішення

Уніфікована аудіо/відео лінія обробки, автоматичне визначення формату, багатомовна транскрипція, конвертація тексту з діакритиками, поділ за паузами, зшивання часових позначок, перевірка релігійних посилань, динамічний вибір моделей ШІ.

Технології

Технології

Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM Instances, HLS (m3u8), Async Python, Connection Pooling, CI/CD Pipeline.

Виклики

Складність змішаних мов

Складність змішаних мов

Аудіо під час запису переходить між арамейською, англійською та іншими мовами. Потрібні були спеціальні підказки ШІ та багатоступенева обробка тексту для правильного застосування діакритик і форматування.

Відео та аудіо в одній лінії обробки

Відео та аудіо в одній лінії обробки

Система повинна була обробляти як чисте аудіо, так і відеоконтейнери. Автовизначення на основі FFprobe вилучає аудіопотік із будь-якого відеоформату перед обробкою — без втручання користувача.

Масштаб на мільйони хвилин

Масштаб на мільйони хвилин

Розроблено з урахуванням великого обсягу: повністю асинхронно, паралельно та з нативною підтримкою Kubernetes із належним управлінням ресурсами для згладжування пікових навантажень.

Розумне ділення для довгого аудіо лекцій

Розумне ділення для довгого аудіо лекцій

Лекції часто тривають більше години. Розбиття на шматки за допомогою визначення тиші поділяє файли природно, а зшивання часових позначок відновлює безперервну безшовну лінію часу без пропусків чи накладань.

Розумна система повторної спроби для навантажень ШІ

Розумна система повторної спроби для навантажень ШІ

Сотні одночасних завдань ШІ суттєво навантажують провайдера. Логіка розумної повторної спроби, адаптивне експоненціальне збільшення затримок і управління чергою підтримують безперервність лінії без втрати завдань.

Вибір моделей ШІ для економії коштів

Вибір моделей ШІ для економії коштів

Три рівні моделей ШІ — потужна, швидка та легка — вибираються динамічно залежно від тривалості та складності контенту, забезпечуючи до 60% зниження витрат на API для коротшого контенту.

Процес

Кожен файл — чи то сире аудіо лекції, чи повноцінний відеозапис — проходить через одну автоматизовану лінію обробки. Вісім послідовних етапів перетворюють його з вихідних даних у готовий до публікації результат, при цьому відео обробляється паралельно, щоб нічого не чекало на інші процеси.

Виявлення та підготовка медіа

Виявлення та підготовка медіа

FFprobe визначає, чи файл є аудіо чи відео. Для відео аудіодоріжка витягується автоматично. Потім аналіз тривалості та формату визначає стратегію обробки.

Поділ аудіо за тишею

Поділ аудіо за тишею

Файли довжиною понад 20 хвилин розбиваються на частини в природних точках тиші, щоб жодна фраза не була порізана посеред речення, що дозволяє одночасно паралельно транскрибувати всі частини.

Транскрипція за допомогою ШІ

Транскрипція за допомогою ШІ

Кожна частина надсилається до Gemini Pro або Flash — вибрано залежно від довжини контенту — зі структурованою схемою, яка змушує модель повертати текст з часовими позначками та мітками спікерів.

Об’єднання хронології

Об’єднання хронології

Усі транскрибовані частини зшиваються назад із коректними часовими зсувами в один безперервний документ із точністю вирівнювання часових позначок 99% по всьому запису.

Постобробка тексту

Постобробка тексту

Сирий транскрипт проходить конвертацію сценарію, застосування діакритик, очищення форматування та перевірку посилань на релігійні джерела згідно з зовнішньою базою даних.

Обробка відео (паралельно)

Обробка відео (паралельно)

Поки виконується транскрипція, відеомодуль займається багатобітрейтним кодуванням HLS, генерацією мініатюр, створенням кліпів для попереднього перегляду та обробкою багатодоріжкового аудіо через FFmpeg.

Генерація субтитрів та зведення

Генерація субтитрів та зведення

З кінцевого перевіреного тексту генеруються синхронізовані субтитри (.vtt / .srt) разом із автоматичним метаданим резюме для бібліотеки контенту.

Хмарна доставка

Хмарна доставка

Усе — транскрипція, субтитри, резюме, потоки HLS — завантажується у AWS S3 з посиланнями, що надаються команді контенту. 100% збереження даних навіть при обривах з’єднання.

Рішення

Ключові особливості рішення

  • Уніфікована аудіо- та відеолінія обробки FFprobe автоматично визначає формати. Один вхідний пункт обробляє MP4, MKV, WebM, MOV та аудіо без ручного конвертування.

  • Багатомовна AI транскрипція — Обробляє англійські, арамейські та змішані мовні записи з підказками, що зберігають межі мов і застосовують правильні правила письма.

  • Динамічний вибір AI-моделі — Рівні Pro, Flash і Flash-Lite вибираються автоматично залежно від довжини файлу та типу контенту — максимально підвищуючи точність і мінімізуючи витрати API.

  • HLS потокове передавання з мультибітрейтом — Паралельна обробка відео створює адаптивні потоки з різними бітрейтами, мініатюри та попередні кліпи, готові для будь-якого сучасного відеопрогравача.

  • 300+ одночасних пакетних завдань— Нативна асинхронна архітектура Kubernetes обробляє великі пакети без блокувань. Helm charts управляють розгортанням і масштабуванням на ARM-інстансах.

Image

Результати у цифрах

Точність транскрипції

99%

Точність для англійського та арамейського аудіо із автоматичним застосуванням правильного письма та діакритичних знаків.

Одночасні завдання

300+

Завдання транскрипції обробляються одночасно з розумним управлінням чергою та адаптивним відступом.

Зниження витрат на API

60%

Заощадження завдяки динамічному вибору моделі — легші моделі автоматично обробляють коротший контент.

Збереження даних

100%

Нульова втрата даних навіть під час перебоїв з’єднання з автоматичною синхронізацією після відновлення.

Маєте мільйони хвилин для обробки? Давайте створимо pipeline!

Розкажіть нам про ваш виклик з контентом або забронюйте безкоштовну консультацію - ми запропонуємо рішення, пристосоване до вашого масштабу, мов і вимог доставки.

Message not sent.
Message not sent.
×
Не знаєте, з чого почати? Ми допоможемо вам окреслити наступні кроки!
Згода на обробку персональних даних
×
Є виклик? Наша команда перетворить його на рішення.
Згода на обробку персональних даних