Vertex transkribeerimisteenus
Juhtumi ülevaade
AI-põhine meediatöötlusplatvorm, mis on loodud töötlema miljoneid audio- ja videominuute. See võtab vastu õppe loengute salvestusi — araamiakeelsetes ja ingliskeelsetes — ning muudab need puhtaks, vormindatud tekstiks, millel on õiged skriptid, diakriitilised märgid, kontrollitud viited ja timingutega subtiitrid. Kui videofail saabub, tuvastab süsteem selle automaatselt, eraldab heliraja ja suunab selle samasse transkriptsioonitorusse.
Eesmärk: Luua meediatoru, mis suudab töödelda miljoneid minutite kaupa sisu ja pakkuda avaldamiseks valmis teksti, subtiitreid ja HLS-vooge võimalikult vähe käsitsi tööd tehes. Töötleda nii heli kui videot ühe toru kaudu, transkribeerida mitmekeelset sisu kõrge täpsusega ning skaleeruda dünaamiliselt Kuberneteses, et hallata üle 300 samaaegse salvestuse partii.
Põhilised projekti andmed
Tööstusharud
Õpisisu platvormid, usulised asutused, meediaalavaldajad, e-õppe ettevõtted, loenguarhiivid, akadeemilised sisuraamatukogud.
Teenused
AI transkriptsioon, video töötlemine, heli eraldamine, HLS mitme-bitikiirusega kodeerimine, subtiitrite genereerimine, partiide orkestreerimine, allikaviidete kontroll, pilvesalvestuse pakkumine, pisipiltide ja eelvaadete genereerimine.
Lahendused
Ühtne audio-/video toru, automaatne formaadi tuvastamine, mitmekeelne transkriptsioon, skripti teisendus diakriitikutega, vaikuse alusel lõhestamine, ajatempli kokkuõmblemine, usuliste viidete kontroll, dünaamiline AI mudeli valik.
Tehnoloogiad
Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM instantsid, HLS (m3u8), asünkroonne Python, ühenduste haldamine, CI/CD toru.
Väljakutsed
Protsess
Iga fail — olgu see toores audio loeng või täispikk videosalvestis — liigub läbi ühe automatiseeritud toru. Kaheksa järjestikust etappi viivad selle toores sisendist avaldamiseks valmis väljundini ning video töötlemine käib paralleelselt, nii et miski ei pea millelegi muule ootama.
Meedia tuvastus ja ettevalmistus
FFprobe tuvastab, kas fail on heli või video. Videofailide puhul eraldatakse helirada automaatselt. Kestuse ja formaadi analüüs määrab seejärel töötlemisstrateegia.
Vaikusepõhine heli lõhestamine
Üle 20 minuti pikkused failid jagatakse vaikuse loomulikes punktides segmentideks, nii et ükski fraas ei katkeks lause keskel, võimaldades kõiki tükke samaaegselt paralleelselt transkribeerida.
AI-transkriptsioon
Iga tükike saadetakse kas Gemini Pro või Flash mudelile — valitakse sisu pikkuse põhjal — koos struktureeritud skeemiga, mis sunnib mudelit tagastama ajatemplitud teksti kõnelabelitega.
Ajajoonte ühendamine
Kõik transkribeeritud tükid õmmeldakse õigete aja nihetega kokku üheks katkematuks dokumendiks, kus kogu salvestuse ulatuses on 99% täpne ajatempli joondus.
Teksti järeltöötlus
Tooresskriptsioon läbib skripti teisenduse, diakriitikate rakendamise, vorminduse puhastamise ja usulise allika tsitaadi kontrolli välise andmebaasi vastu.
Videotöötlus (paralleelselt)
Kui transkriptsioon töötab, tegeleb video moodul HLS mitme-bitikiirusega kodeerimise, pisipiltide loomise, eelvaate klipi genereerimise ja mitme helivoo haldamisega FFmegpi kaudu.
Subtiitrid ja kokkuvõtte genereerimine
Lõplikust kinnitatud tekstist genereeritakse aega näitavad subtiitrite failid (.vtt / .srt) koos automaatse metandmete kokkuvõttega sisu raamatukogule.
Pilvepõhine levitamine
Kõik — transkriptsioon, subtiitrid, kokkuvõte, HLS-vood — laaditakse üles AWS S3 keskkonda ja lingid edastatakse sisutiimile. Andmete 100% säilimine ka ühenduse katkestamisel.
Lahendused
Lahenduse põhifunktsioonid
Ühtne heli- ja videotöötlustoru — FFprobe tuvastab vormingud automaatselt. Üks sisendpunkt haldab MP4, MKV, WebM, MOV ja heli ilma käsitsi teisendamiseta.
Mitmekeelne tehisintellekti transkriptsioon — Töötleb inglise, aramea ja segakeelseid salvestisi, säilitades keelepiirid ja rakendades õigeid kirjasüsteemi konventsioone.
Dünaamiline tehisintellekti mudeli valik — Pro-, Flash- ja Flash-Lite-tasemed valitakse automaatselt faili pikkuse ja sisutüübi järgi — maksimeerides täpsust ja minimeerides API kulutusi.
HLS mitme bitikiiruse voogesitus — Paralleelne video töötlus toodab adaptiivse bitikiirusega vooge, pisipilte ja eelvaateklippe, mis on valmis igaks kaasaegseks videopleieriks.
300+ samaaegset partiitööd — Kubernetesi natiivne asünkroonne arhitektuur haldab suuri partiisid ilma blokeerimiseta. Helm graafikud haldavad kasutuselevõttu ja skaleerimist ARM-instantsidel.
Tulemused numbrites
99%
Täpne inglise ja aramea helisisu jaoks, kus õige kirjasüsteem ja diakriitikad rakenduvad automaatselt.
300+
Transkriptsioonitööd töödeldakse samaaegselt nutika järjekorra halduse ja adaptiivse tagasipõrkega.
60%
Sääst läbi dünaamilise mudeli valiku — kergemad mudelid töötlevad lühemaid sisusid automaatselt.
100%
Andmete kadumine puudub isegi ühenduse katkestuste ajal, automaatne sünkroonimine taastamise korral.