Vertex transkribeerimisteenus

Juhtumi ülevaade

AI-põhine meediatöötlusplatvorm, mis on loodud töötlema miljoneid audio- ja videominuute. See võtab vastu õppe loengute salvestusi — araamiakeelsetes ja ingliskeelsetes — ning muudab need puhtaks, vormindatud tekstiks, millel on õiged skriptid, diakriitilised märgid, kontrollitud viited ja timingutega subtiitrid. Kui videofail saabub, tuvastab süsteem selle automaatselt, eraldab heliraja ja suunab selle samasse transkriptsioonitorusse.

Eesmärk: Luua meediatoru, mis suudab töödelda miljoneid minutite kaupa sisu ja pakkuda avaldamiseks valmis teksti, subtiitreid ja HLS-vooge võimalikult vähe käsitsi tööd tehes. Töötleda nii heli kui videot ühe toru kaudu, transkribeerida mitmekeelset sisu kõrge täpsusega ning skaleeruda dünaamiliselt Kuberneteses, et hallata üle 300 samaaegse salvestuse partii.

Image

Põhilised projekti andmed

Tööstusharud

Tööstusharud

Õpisisu platvormid, usulised asutused, meediaalavaldajad, e-õppe ettevõtted, loenguarhiivid, akadeemilised sisuraamatukogud.

Teenused

Teenused

AI transkriptsioon, video töötlemine, heli eraldamine, HLS mitme-bitikiirusega kodeerimine, subtiitrite genereerimine, partiide orkestreerimine, allikaviidete kontroll, pilvesalvestuse pakkumine, pisipiltide ja eelvaadete genereerimine.

Lahendused

Lahendused

Ühtne audio-/video toru, automaatne formaadi tuvastamine, mitmekeelne transkriptsioon, skripti teisendus diakriitikutega, vaikuse alusel lõhestamine, ajatempli kokkuõmblemine, usuliste viidete kontroll, dünaamiline AI mudeli valik.

Tehnoloogiad

Tehnoloogiad

Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM instantsid, HLS (m3u8), asünkroonne Python, ühenduste haldamine, CI/CD toru.

Väljakutsed

Segakeelse keerukus

Segakeelse keerukus

Heli vahetub Aramaakeelse, ingliskeelse ja teiste keelte vahel salvestuse keskel. Õigete diakriitiliste märkide ja vorminduse rakendamiseks oli vaja spetsiaalset AI juhendamist ja mitmeastmelist tekstitöötlust.

Video ja heli ühes torus

Video ja heli ühes torus

Süsteem pidi töötlema nii puhast heli kui ka videot. FFprobe-põhine automaatne tuvastus eraldab helivoo kõigist videoformaatidest enne töötlemist — kasutaja sekkumist ei nõuta.

Skaala miljonite minutite jaoks

Skaala miljonite minutite jaoks

Loodud suure mahuga töötlemiseks: täielikult asünkroonne, paralleelne ja Kubernetes-sõbralik, nõuetekohase ressursihaldusega, et neelata massilisi koormuse hüppeid partii laadimisel.

Tark lõhestamine pikkade loengute heli jaoks

Tark lõhestamine pikkade loengute heli jaoks

Loengud ületavad tihti tunni pikkuse. Vaikuse-tuvastusel põhinev lõhestus jagab failid loomulikult, ajatempli kokkuõmblemine taastab katkematu ajajoone ilma lünkade või kattumisteta.

Tark taaskäivitussüsteem AI töökoormustele

Tark taaskäivitussüsteem AI töökoormustele

Sajad samaaegsed AI tööd suruvad teenusepakkuja piirid maksimaalselt. Tark taaskäivituse loogika, adaptiivne eksponentsiaalne tagasilöök ja järjekorra haldus hoiavad toru liikumises, ilma et töid kaotataks.

AI mudeli valik kulutõhususeks

AI mudeli valik kulutõhususeks

Kolm AI mudelite taset — võimas, kiire ja kergem — valitakse dünaamiliselt sisu pikkuse ja keerukuse põhjal, pakkudes kuni 60% madalamaid API kulusid lühema sisu korral.

Protsess

Iga fail — olgu see toores audio loeng või täispikk videosalvestis — liigub läbi ühe automatiseeritud toru. Kaheksa järjestikust etappi viivad selle toores sisendist avaldamiseks valmis väljundini ning video töötlemine käib paralleelselt, nii et miski ei pea millelegi muule ootama.

Meedia tuvastus ja ettevalmistus

Meedia tuvastus ja ettevalmistus

FFprobe tuvastab, kas fail on heli või video. Videofailide puhul eraldatakse helirada automaatselt. Kestuse ja formaadi analüüs määrab seejärel töötlemisstrateegia.

Vaikusepõhine heli lõhestamine

Vaikusepõhine heli lõhestamine

Üle 20 minuti pikkused failid jagatakse vaikuse loomulikes punktides segmentideks, nii et ükski fraas ei katkeks lause keskel, võimaldades kõiki tükke samaaegselt paralleelselt transkribeerida.

AI-transkriptsioon

AI-transkriptsioon

Iga tükike saadetakse kas Gemini Pro või Flash mudelile — valitakse sisu pikkuse põhjal — koos struktureeritud skeemiga, mis sunnib mudelit tagastama ajatemplitud teksti kõnelabelitega.

Ajajoonte ühendamine

Ajajoonte ühendamine

Kõik transkribeeritud tükid õmmeldakse õigete aja nihetega kokku üheks katkematuks dokumendiks, kus kogu salvestuse ulatuses on 99% täpne ajatempli joondus.

Teksti järeltöötlus

Teksti järeltöötlus

Tooresskriptsioon läbib skripti teisenduse, diakriitikate rakendamise, vorminduse puhastamise ja usulise allika tsitaadi kontrolli välise andmebaasi vastu.

Videotöötlus (paralleelselt)

Videotöötlus (paralleelselt)

Kui transkriptsioon töötab, tegeleb video moodul HLS mitme-bitikiirusega kodeerimise, pisipiltide loomise, eelvaate klipi genereerimise ja mitme helivoo haldamisega FFmegpi kaudu.

Subtiitrid ja kokkuvõtte genereerimine

Subtiitrid ja kokkuvõtte genereerimine

Lõplikust kinnitatud tekstist genereeritakse aega näitavad subtiitrite failid (.vtt / .srt) koos automaatse metandmete kokkuvõttega sisu raamatukogule.

Pilvepõhine levitamine

Pilvepõhine levitamine

Kõik — transkriptsioon, subtiitrid, kokkuvõte, HLS-vood — laaditakse üles AWS S3 keskkonda ja lingid edastatakse sisutiimile. Andmete 100% säilimine ka ühenduse katkestamisel.

Lahendused

Lahenduse põhifunktsioonid

  • Ühtne heli- ja videotöötlustoru FFprobe tuvastab vormingud automaatselt. Üks sisendpunkt haldab MP4, MKV, WebM, MOV ja heli ilma käsitsi teisendamiseta.

  • Mitmekeelne tehisintellekti transkriptsioon — Töötleb inglise, aramea ja segakeelseid salvestisi, säilitades keelepiirid ja rakendades õigeid kirjasüsteemi konventsioone.

  • Dünaamiline tehisintellekti mudeli valik — Pro-, Flash- ja Flash-Lite-tasemed valitakse automaatselt faili pikkuse ja sisutüübi järgi — maksimeerides täpsust ja minimeerides API kulutusi.

  • HLS mitme bitikiiruse voogesitus — Paralleelne video töötlus toodab adaptiivse bitikiirusega vooge, pisipilte ja eelvaateklippe, mis on valmis igaks kaasaegseks videopleieriks.

  • 300+ samaaegset partiitööd— Kubernetesi natiivne asünkroonne arhitektuur haldab suuri partiisid ilma blokeerimiseta. Helm graafikud haldavad kasutuselevõttu ja skaleerimist ARM-instantsidel.

Image

Tulemused numbrites

Transkriptsiooni täpsus

99%

Täpne inglise ja aramea helisisu jaoks, kus õige kirjasüsteem ja diakriitikad rakenduvad automaatselt.

Samaaegsed tööd

300+

Transkriptsioonitööd töödeldakse samaaegselt nutika järjekorra halduse ja adaptiivse tagasipõrkega.

Madalamad API kulud

60%

Sääst läbi dünaamilise mudeli valiku — kergemad mudelid töötlevad lühemaid sisusid automaatselt.

Andmete säilitamine

100%

Andmete kadumine puudub isegi ühenduse katkestuste ajal, automaatne sünkroonimine taastamise korral.

Kas sul on miljoneid minuteid töötlemiseks? Loome torujuhtme!

Räägi meile oma sisuprobleemist või broneeri tasuta konsultatsioon - kavandame lahenduse, mis on kohandatud sinu mahule, keeltele ja tarne nõuetele.

Message not sent.
Message not sent.
×
Ei tea, kust alustada? Me aitame teil järgmised sammud kavandada!
Nõusolek isikuandmete töötlemiseks
×
Kas Teil on väljakutse? Meie meeskond muudab selle lahenduseks.
Nõusolek isikuandmete töötlemiseks