Ülesandehaldussüsteem (4)

Vertexi transkribeerimisteenus

Juhtumi ülevaade

Tehisintellektil põhinev meediatöötluse platvorm, mis suudab töödelda miljoneid minuteid helisalvestisi ja videot. See võtab vastu haridusloengute salvestisi — aramea ja inglise keeles — ning muudab need puhtaks, vormindatud tekstiks õige kirjastiili, diakriitiliste märkide, kinnitatud viidete ja ajastatud subtiitritega. Kui videotöötluse fail saabub, tuvastab süsteem selle automaatselt, eraldab heliraja ja juhib selle sama transkriptsioonitoru kaudu.

Eesmärk: Luua meediatöötlustoru, mis suudab töödelda miljoneid minuteid sisu ja pakkuda publikatsiooniks valmis teksti, subtiitreid ja HLS-vooge - võimalikult vähe käsitsi tööd nõudes. Töötleda nii heli kui videot ühe toru kaudu, transkribeerida mitmekeelseid sisu kõrge täpsusega ning skaleeruda dünaamiliselt Kubernetes keskkonnas, et hallata korraga üle 300 salvestise kimp.

Peamised projekti andmed

Valdkonnad

Haridussisulahenduste platvormid, usulised institutsioonid, meediaväljaanded, e-õppe ettevõtted, loenguarhiivid, akadeemilised sisukogud.

Teenused

Tehisintellekti transkriptsioon, videote töötlemine, heli eraldamine, HLS mitme bitikiiruse kodeerimine, subtiitrite genereerimine, töökimpude haldamine, allikaviidete kontroll, pilvesalvestuse teenus, pisipiltide ja eelvaadete loomine.

Lahendused

Ühtne heli- ja videotöötlustoru, automaatne formaadi tuvastamine, mitmekeelne transkriptsioon, kirjastiili konverteerimine diakriitiliste märkidega, vaikusepõhine lõikamine, ajatempli kokkupanek, usuliste allikate kontroll, dünaamiline AI mudelite valik.

Tehnoloogiad

Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM eksemplarid, HLS (m3u8), asünkroonne Python, ühenduste haldus, CI/CD toru.

Väljakutsed

Segakeelne keerukus

Heli vahetub salvestise jooksul aramea, inglise ja teiste keelte vahel. Õige diakriitikute ja vorminduse rakendamiseks oli vaja spetsiaalseid AI juhiseid ja mitmeastmelist tekstitöötlust.

Video ja heli ühes torus

Süsteem pidi käsitlema nii puhast heli kui ka videokonteinereid. FFprobe-põhine automaatne tuvastus eraldab heli voogude igast videoformaadist enne töötlemist — kasutaja sekkumist pole vaja.

Skaleerimine miljonite minutite jaoks

Alates algusest disainitud mahukas süsteem: täielikult asünkroonne, paralleelne ja Kubernetes-põhine, korraliku ressursside haldusega, mis suudab toime tulla äkiliste kimplaadungitega.

Tark lõikamine pikkade loengute heli jaoks

Loengud kestavad sageli üle tunni. Vaikuse tuvastusel põhinev lõikamine jagab failid loomulikult, samal ajal kui ajatempli kokkupanek tagab katkematu ja sujuva ajajoone ilma aukude või katteta.

Tark taaskäivitussüsteem AI töökoormuste jaoks

Sajad samaaegsed AI ülesanded suruvad teenuse piirid tugevalt. Tark taaskäivituse loogika, adaptiivne eksponentsiaalne viive ja järjekorrapõhine juhtimine hoiavad toru töös ilma tööde kaotusteta.

AI mudeli valik kuluefektiivsuseks

Kolm AI mudeli taset — jõuline, kiire ja kergekaaluline — valitakse dünaamiliselt sisu pikkuse ja keerukuse alusel, võimaldades lühema sisu puhul kuni 60% madalamaid API kulusid.

Protsess

Iga fail — olgu see toore heli loeng või täielik videotöötlus — liigub ühe automatiseeritud toru kaudu. Kaheksa järjestikust etappi viivad selle toorandmest publikatsiooniks valmis väljundiks, videote töötlemine toimib paralleelselt, nii et miski ei pea ootama.

Meedia tuvastamine ja ettevalmistus

FFprobe tuvastab, kas fail on heli- või videofail. Video puhul eraldatakse helirada automaatselt. Kestuse ja formaadi analüüs määrab seejärel töötlemisstrateegia.

Vaikusepõhine heli jagamine

Pikemad kui 20-minutilised failid jagatakse vaikusepunktide kohalt looduslikult lõikudeks, et mitte katkestada ühtegi fraasi keset lauset, võimaldades samaaegset paralleelset transkriptsiooni kõigi osade jaoks.

AI transkriptsioon

Iga lõik saadetakse Gemini Pro või Flash mudelile — valik sõltub sisu pikkusest — koos struktureeritud skeemiga, mis sunnib mudelit tagastama ajastatud teksti kõnelejate siltidega.

Ajakava kokkupanek

Kõik transkribeeritud lõigud liidetakse õigete ajakohastustega üheks katkematuks dokumendiks, saavutades 99% täpsusega ajatempli kooskõla kogu salvestise ulatuses.

Teksti järelkäsitlus

Toore transkriptsioon läbib kirjastiili konverteerimise, diakriitikumide lisamise, vorminduse korrastamise ja religioossete allikaviidete kontrolli välise andmebaasi vastu.

Videote töötlemine (paralleelselt)

Transkriptsiooni ajal tegeleb videomoodul HLS mitme bitikiiruse kodeerimise, pisipiltide loomise, eelvaateklippide genereerimise ja mitme helirada haldamisega FFmpeg abil.

Subtiitrite ja kokkuvõtte genereerimine

Lõplikust kinnitatud tekstist luuakse ajastatud subtiitride failid (.vtt / .srt) ning automaatne metadate kokkuvõte sisukogule.

Pilveleverimine

Kõik — transkriptsioon, subtiitrid, kokkuvõte, HLS vood — üles laaditakse AWS S3-sse koos linkidega, mis antakse sisu meeskonnale. 100% andmete säilimine isegi ühenduse katkestustest hoolimata.

Lahendused

Lahenduse peamised omadused

Ühtne heli- ja videotöötlustoru — FFprobe tuvastab formaadid automaatselt. Üks sissepääsupunkt haldab MP4, MKV, WebM, MOV ja heli ilma manuaalse teisenduseta. 
Mitmekeelne tehisintellekti transkriptsioon — Töötleb inglise, aramea ja segakeelseid salvestisi, säilitades keelepiirid ja rakendades õigeid kirjutamiskonventsioone.
Dünaamiline tehisintellekti mudeli valik — Pro, Flash ja Flash-Lite tasemed valitakse automaatselt faili pikkuse ja sisu tüübi järgi — maksimeerides täpsust ja minimeerides API kulutusi.
HLS mitme bitikiirusega voogedastus — Paralleelne videotöötlus loob kohanduva bitikiirusega voogud, pisipilte ja eelvaateklippe, mis sobivad igasugusele tänapäevasele videopleierile.
300+ samaaegset järjekorras olevat tööd— Kubernetes'i-lahenduspõhine asünkroonne arhitektuur suudab töödelda suuri koguseid ilma ummistusteta. Helm graafikud haldavad juurutamist ja skaleerimist ARM platvormil.

Tulemused numbrites

Transkriptsiooni täpsus

99%

Täpsus inglise ja aramea helisisu puhul, kus õige kirjaviis ja diakriitikad rakenduvad automaatselt.

Samaaegsed tööd

300+

Transkriptsioonitööd töödeldakse samaaegselt, kasutades nutikat järjekorra juhtimist ja kohanduvat tagasilükkamist.

Madalamad API kulud

60%

Säästud tänu dünaamilisele mudeli valikule — kerged mudelid töötlevad lühemaid sisu automaatselt.

Andmete säilitamine

100%

Nullandmekadu isegi ühenduse katkemisel, automaatse sünkroniseerimisega ühenduse taastumisel.

Vertexi transkribeerimisteenus

Juhtumi ülevaade

Peamised projekti andmed

Väljakutsed

Protsess

Lahendused

Lahenduse peamised omadused

Tulemused numbrites

Kas sul on miljoneid minuteid töötluseks? Teeme torujuhtme valmis!

Räägi meile oma sisuväljakutsest või broneeri tasuta konsultatsioon - anname lahenduse, mis on kohandatud sinu ulatuse, keelte ja edastusnõuetega.

Vertexi transkribeerimisteenus

Juhtumi ülevaade

Peamised projekti andmed

Väljakutsed

Protsess

Lahendused

Lahenduse peamised omadused

Tulemused numbrites

Kas sul on miljoneid minuteid töötluseks? Teeme torujuhtme valmis!

Räägi meile oma sisuväljakutsest või broneeri tasuta konsultatsioon - anname lahenduse, mis on kohandatud sinu ulatuse, keelte ja edastusnõuetega.

Ei tea, kust alustada? Me aitame teil järgmised sammud kavandada!

Kas Teil on väljakutse? Meie meeskond muudab selle lahenduseks.