Vertexi transkriptsiooniteenus
Juhtumi ülevaade
Tehisintellektil põhinev meedia töötlemise platvorm, mis on loodud miljonite minutite helisalvestuste ja videote töötlemiseks. See võtab vastu haridusloengute salvestusi heebrea ja inglise keeles ning teisendab need puhastatud, vormindatud tekstiks koos korrektselt kirjutatud kirjapildi, diakriitiliste märkide, kontrollitud viidete ja sünkroniseeritud subtiitritega. Kui saabub videofail, tuvastab süsteem selle automaatselt, eraldab heliraja ja suunab selle sama transkriptsioonikonveieri kaudu.
Eesmärk: Luua meediakonveier, mis suudab töödelda miljoneid minuteid sisu ning pakkuda teksti, subtiitreid ja valmis HLS-vooge - minimaalsete käsitsi tehtavate sekkumistega. Töötleda heli ja videot ühes konveieris, transkribeerida mitmekeelset sisu kõrge täpsusega ning dünaamiliselt skaleerida Kubernetesil üle 300 samaaegse salvestuse pakettide töötlemiseks.
Projekti põhiteave
Tööstusharud
Haridussisu platvormid, usulised asutused, meedia väljaandjad, e-õppe ettevõtted, loengute arhiivid, akadeemilised sisu raamatukogud.
Teenused
Tehisintellektil põhinev transkriptsioon, video töötlemine, heli eraldamine, HLS-kodeerimine mitme bitikiirusega, subtiitrite genereerimine, paketihaldus, viidete allikate kinnitamine, pilvesalvestusest edastamine, eelvaadete ja pisipiltide genereerimine.
Lahendused
Ühtne heli/video konveier, automaatne formaadi tuvastamine, mitmekeelne transkriptsioon, kirjapildi teisendus diakriitiliste märkidega, vaikuse alusel segmentide jagamine, ajatempli ühildamine, usuliste viidete kinnitamine, AI mudeli dünaamiline valik.
Tehnoloogiad
Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM instantsid, HLS (m3u8), asünkroonne Python, Connection Pooling, CI/CD konveier.
Protsess
Iga fail — olgu see toore helisalvestus loengust või täispikk video — läbib ühtse automatiseeritud konveieri. Kaheksa järjestikust etappi teisendavad selle lähteformaatidest avaldamiseks valmis tulemuseks, video töötlemine toimub samal ajal paralleelselt, et midagi ei jääks seisma.
Meedia tuvastamine ja ettevalmistamine
FFprobe määrab, kas fail on heli- või videofail. Videote puhul eraldatakse automaatselt heliriba. Kestuse ja formaadi analüüs suunab töötlemisstrateegia.
Heli jaotamine vaikuse alusel
Üle 20 minuti pikkused failid jagatakse vaikuse loomulikes punktides segmentideks, et ükski fraas ei katkeks lause keskel, võimaldades kõiki segmente samaaegselt paralleelselt transkribeerida.
Tehisintellektil põhinev transkriptsioon
Iga segment saadetakse Gemini Pro või Flash teenusesse — valik sõltub sisu pikkusest — koos struktureeritud skeemiga, mis sunnib mudelit genereerima teksti ajatemplit ning kõnelejate märgistustega.
Ajajoone ühendamine
Kõik transkribeeritud osad ühendatakse korrektselt ajatemplit nihutades üheks sujuvaks dokumendiks, kus ajatempli joondus kogu salvestuse ulatuses on 99% täpne.
Teksti järelküpsetamine
Toore transkriptsiooni tekst läbib kirjapildi teisenduse, diakriitiliste märkide lisamise, vorminduse puhastamise ja usuliste viidete kontrolli välise andmebaasi abil.
Video töötlemine (paralleelselt)
Transkriptsiooni käigus teostab videomoodul HLS mitme bitikiirusega kodeerimist, pisipiltide genereerimist, eelvaadete loomist ja mitmeheliraja töötlust FFmpeg abil.
Subtiitrite ja kokkuvõtete genereerimine
Lõplikust kinnitatud tekstist genereeritakse subtiitrite failid koos ajaga (.vtt / .srt) ning automaatne metainformatsiooni kokkuvõte sisuraamatukogule.
Pilvepõhine edastamine
Kõik — transkriptsioonid, subtiitrid, kokkuvõtted, HLS vood — laaditakse üles AWS S3-le koos linkidega, mis edastatakse sisumeeskonnale. Andmete 100% säilitamine isegi ühenduse katkemisel.
Lahendus
Lahenduse põhifunktsioonid
Ühtne heli- ja videokonveier — FFprobe tuvastab formaadid automaatselt. Üks sisend töötleb MP4, MKV, WebM, MOV ja heli ilma käsitsi teisendamiseta.
Mitmekeelne tehisintellektil põhinev transkriptsioon — Töötleb inglise, heebrea ja segatud salvestusi vihjetega, mis säilitavad keelte piigid ja rakendavad korrektseid kirjapildi reegleid.
Dünaamiline AI mudeli valik — Pro, Flash ja Flash-Lite tasemed valitakse automaatselt faili pikkuse ja sisu tüübi põhjal — maksimeerides täpsust ja minimeerides API kulusid.
Multi bitikiirusega HLS voogesitus — Paralleelne video töötlemine loob adaptiivsed vood, pisipildid ja eelvaateklipid, mis sobivad igale kaasaegsele videomängijale.
300+ samaaegset paketülesannet — Kubernetes'i natiivne asünkroonne arhitektuur töötleb suuri pakette lukustumiseta. Helm-charts haldavad juurutamist ja skaleerimist ARM instantsidel.
Tulemused numbrites
99%
Täpsus inglise ja aramea keele helisisu korral koos automaatse õige õigekirja ja diakriitiliste märkide rakendamisega.
300+
Transkriptsioonülesanded töödeldakse samaaegselt nutika järjekorralduse halduse ja adaptiivse taandega.
60%
Sääst dünaamilise mudeli valiku abil — kergemad mudelid töötlevad automaatselt lühemat sisu.
100%
Andmete kadumise puudumine isegi ühenduse katkemiste korral koos automaatse sünkroonimisega pärast ühenduse taastamist.