Vertex Transcribe teenus
Juhtumi ülevaade
Tehisintellektil põhinev meediatöötluse platvorm, mis on loodud töötlema miljoneid minuteid heli- ja videomaterjali. See võtab vastu õppeloengute salvestusi — araamiakeelses ja ingliskeelses — ning muudab need puhtaks, vormindatud tekstiks koos õige skripti, diakriitikute, kontrollitud viidete ja ajastatud subtiitritega. Kui video fail saabub, tuvastab süsteem selle automaatselt, ekstraheerib heliraja ning suunab selle läbi sama transkriptsioonitoru.
Eesmärk: Luua meediatoru, mis suudab töödelda miljoneid minuteid sisu ja pakkuda väljaandmiseks valmis teksti, subtiitreid ja HLS voogusid - võimalikult vähe käsitööd nõudes. Töötle nii heli- kui videotöötlus ühe toru kaudu, transkribeeri mitmekeelset sisu kõrge täpsusega ning skaleeru dünaamiliselt Kubernetesel, et hallata üle 300 samaaegse salvestuse partiid.
Põhiteave projekti kohta
Tööstusharud
Õppesisu platvormid, usulised asutused, meedia väljaandmine, e-õppe ettevõtted, loengute arhiivid, akadeemilise sisu raamatukogud.
Teenused
Tehisintellekti transkriptsioon, videotöötlus, heli ekstraheerimine, HLS mitme bitikiiruse kodeerimine, subtiitrite genereerimine, partii orkestreerimine, lähteviidete kontroll, pilvesalvestuse kohaletoimetamine, pisipiltide ja eelvaadete loomine.
Lahendused
Ühtne heli- ja videotöötlustoru, automaatne formaadi tuvastus, mitmekeelne transkriptsioon, skripti teisendus diakriitikutega, vaikusepõhine failideks jagamine, ajatemplite kokkulappimine, usuliste viidete kontroll, dünaamiline tehisintellekti mudelite valik.
Tehnoloogiad
Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM instantsid, HLS (m3u8), asünkroonne Python, ühenduse haldus, CI/CD torujuhe.
Väljakutsed
Protsess
Iga fail — olgu see siis tooraine heli loeng või täielik videosalvestis — liigub läbi ühe automatiseeritud toru. Kaheksa järjestikust etappi viivad selle toorandmetest väljaandmiseks valmis tulemuseks, videote töötlemine jookseb paralleelselt, nii et miski ei pea midagi ootele.
Meedia tuvastamine ja ettevalmistamine
FFprobe tuvastab, kas fail on heli- või videofail. Video korral ekstraheeritakse heliriba automaatselt. Kestuse ja formaadi analüüs määrab töötlemisstrateegia.
Vaikusepõhine heli jagamine
Failid, mis on pikemad kui 20 minutit, jagatakse vaikuse loomulikele punktidele, et mitte katkestada fraasi keskel lauset, võimaldades kõigi osade paralleelset transkriptsiooni samaaegselt.
Tehisintellekti transkriptsioon
Iga lõik saadetakse Gemini Pro või Flashile — valitakse sisu pikkuse järgi — koos struktureeritud skeemiga, mis sunnib mudelit tagastama ajatempliga tekstiga kõnelejate siltidega.
Ajatelje kokkulappimine
Kõik transkribeeritud osad lappitakse kokku koos õigete ajanihetustega üheks sujuvaks dokumendiks, saavutades 99% täpsusega ajatemplite joondamise kogu salvestuse ulatuses.
Teksti järelhõõrdumine
Toores transkriptsioon läbib skripti teisenduse, diakriitikute lisamise, vorminduse puhastuse ja usuliste viidete kontrolli välise andmebaasi vastu.
Videotöötlus (paralleelselt)
Transkriptsiooni käigus haldab videomoodul HLS mitme bitikiiruse kodeerimist, pisipiltide loomist, eelvaate videolõikude koostamist ja mitme helivoo töötlemist FFmpeg abil.
Subtiitrite ja kokkuvõtete genereerimine
Lõplikust kontrollitud tekstist genereeritakse ajastatud subtiitrite failid (.vtt / .srt) koos automaatse metainfo kokkuvõttega sisuraamatukogule.
Pilve kohaletoimetamine
Kõik – transkriptsioon, subtiitrid, kokkuvõte, HLS vood – laaditakse üles AWS S3-le ja lingid antakse sisu meeskonnale. Andmete säilimine 100% isegi ühenduse katkemiste korral.
Lahendused
Põhilised lahenduse omadused
Ühtne heli- ja videotöötlustoru — FFprobe tuvastab formaadid automaatselt. Üks sisenemispunkt käsitleb MP4, MKV, WebM, MOV ja heli teisendusi käsitsi konverteerimata.
Mitmekeelne tehisintellekti transkriptsioon — Töötleb inglise, heebrea ja segakeelseid salvestisi, säilitades keelepiirid ja rakendades õigeid kirjakonventsioone.
Dünaamiline tehisintellekti mudeli valik — Pro, Flash ja Flash-Lite tasemed valitakse automaatselt faili pikkuse ja sisutüübi alusel — maksimeerides täpsust ja minimeerides API kulusid.
HLS mitme bitikiirusega voogedastus — Paralleelne video töötlemine loob adaptiivsete bitikiirustega vooge, pisipilte ja eelvaateklippe, mis sobivad igale kaasaegsele videopleierile.
300+ samal ajal töödeldavat partiitööd — Kubernetes-i-põhine asünkroonne arhitektuur haldab suuri partiisid ilma blokeerimiseta. Helm diagrammid juhivad juurutamist ja skaala ARM instantsidel.
Tulemused numbrites
99%
Täpsus inglise ja heebrea helisisu puhul, kus õige kirjakujundus ja diakriitilised märgid rakenduvad automaatselt.
300+
Transkriptsioonitööd töödeldakse samaaegselt nutika järjekorralduse ning adaptiivse tagasipõrke haldusega.
60%
Säästud dünaamilise mudelivaliku kaudu — kerged mudelid töötlevad lühemaid sisusid automaatselt.
100%
Andmete kadumiseta ka ühenduse katkestuste ajal, automaatne sünkroonimine, kui ühendus taastub.