Vertexi transkriptsiooniteenus

Juhtumi ülevaade

Tehisintellektil põhinev meedia töötlemise platvorm, mis on loodud miljonite minutite helisalvestuste ja videote töötlemiseks. See võtab vastu haridusloengute salvestusi heebrea ja inglise keeles ning teisendab need puhastatud, vormindatud tekstiks koos korrektselt kirjutatud kirjapildi, diakriitiliste märkide, kontrollitud viidete ja sünkroniseeritud subtiitritega. Kui saabub videofail, tuvastab süsteem selle automaatselt, eraldab heliraja ja suunab selle sama transkriptsioonikonveieri kaudu.

Eesmärk: Luua meediakonveier, mis suudab töödelda miljoneid minuteid sisu ning pakkuda teksti, subtiitreid ja valmis HLS-vooge - minimaalsete käsitsi tehtavate sekkumistega. Töötleda heli ja videot ühes konveieris, transkribeerida mitmekeelset sisu kõrge täpsusega ning dünaamiliselt skaleerida Kubernetesil üle 300 samaaegse salvestuse pakettide töötlemiseks.

Image

Projekti põhiteave

Tööstusharud

Tööstusharud

Haridussisu platvormid, usulised asutused, meedia väljaandjad, e-õppe ettevõtted, loengute arhiivid, akadeemilised sisu raamatukogud.

Teenused

Teenused

Tehisintellektil põhinev transkriptsioon, video töötlemine, heli eraldamine, HLS-kodeerimine mitme bitikiirusega, subtiitrite genereerimine, paketihaldus, viidete allikate kinnitamine, pilvesalvestusest edastamine, eelvaadete ja pisipiltide genereerimine.

Lahendused

Lahendused

Ühtne heli/video konveier, automaatne formaadi tuvastamine, mitmekeelne transkriptsioon, kirjapildi teisendus diakriitiliste märkidega, vaikuse alusel segmentide jagamine, ajatempli ühildamine, usuliste viidete kinnitamine, AI mudeli dünaamiline valik.

Tehnoloogiad

Tehnoloogiad

Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM instantsid, HLS (m3u8), asünkroonne Python, Connection Pooling, CI/CD konveier.

Protsess

Iga fail — olgu see toore helisalvestus loengust või täispikk video — läbib ühtse automatiseeritud konveieri. Kaheksa järjestikust etappi teisendavad selle lähteformaatidest avaldamiseks valmis tulemuseks, video töötlemine toimub samal ajal paralleelselt, et midagi ei jääks seisma.

Meedia tuvastamine ja ettevalmistamine

Meedia tuvastamine ja ettevalmistamine

FFprobe määrab, kas fail on heli- või videofail. Videote puhul eraldatakse automaatselt heliriba. Kestuse ja formaadi analüüs suunab töötlemisstrateegia.

Heli jaotamine vaikuse alusel

Heli jaotamine vaikuse alusel

Üle 20 minuti pikkused failid jagatakse vaikuse loomulikes punktides segmentideks, et ükski fraas ei katkeks lause keskel, võimaldades kõiki segmente samaaegselt paralleelselt transkribeerida.

Tehisintellektil põhinev transkriptsioon

Tehisintellektil põhinev transkriptsioon

Iga segment saadetakse Gemini Pro või Flash teenusesse — valik sõltub sisu pikkusest — koos struktureeritud skeemiga, mis sunnib mudelit genereerima teksti ajatemplit ning kõnelejate märgistustega.

Ajajoone ühendamine

Ajajoone ühendamine

Kõik transkribeeritud osad ühendatakse korrektselt ajatemplit nihutades üheks sujuvaks dokumendiks, kus ajatempli joondus kogu salvestuse ulatuses on 99% täpne.

Teksti järelküpsetamine

Teksti järelküpsetamine

Toore transkriptsiooni tekst läbib kirjapildi teisenduse, diakriitiliste märkide lisamise, vorminduse puhastamise ja usuliste viidete kontrolli välise andmebaasi abil.

Video töötlemine (paralleelselt)

Video töötlemine (paralleelselt)

Transkriptsiooni käigus teostab videomoodul HLS mitme bitikiirusega kodeerimist, pisipiltide genereerimist, eelvaadete loomist ja mitmeheliraja töötlust FFmpeg abil.

Subtiitrite ja kokkuvõtete genereerimine

Subtiitrite ja kokkuvõtete genereerimine

Lõplikust kinnitatud tekstist genereeritakse subtiitrite failid koos ajaga (.vtt / .srt) ning automaatne metainformatsiooni kokkuvõte sisuraamatukogule.

Pilvepõhine edastamine

Pilvepõhine edastamine

Kõik — transkriptsioonid, subtiitrid, kokkuvõtted, HLS vood — laaditakse üles AWS S3-le koos linkidega, mis edastatakse sisumeeskonnale. Andmete 100% säilitamine isegi ühenduse katkemisel.

Lahendus

Lahenduse põhifunktsioonid

  • Ühtne heli- ja videokonveier FFprobe tuvastab formaadid automaatselt. Üks sisend töötleb MP4, MKV, WebM, MOV ja heli ilma käsitsi teisendamiseta.

  • Mitmekeelne tehisintellektil põhinev transkriptsioon — Töötleb inglise, heebrea ja segatud salvestusi vihjetega, mis säilitavad keelte piigid ja rakendavad korrektseid kirjapildi reegleid.

  • Dünaamiline AI mudeli valik — Pro, Flash ja Flash-Lite tasemed valitakse automaatselt faili pikkuse ja sisu tüübi põhjal — maksimeerides täpsust ja minimeerides API kulusid.

  • Multi bitikiirusega HLS voogesitus — Paralleelne video töötlemine loob adaptiivsed vood, pisipildid ja eelvaateklipid, mis sobivad igale kaasaegsele videomängijale.

  • 300+ samaaegset paketülesannet — Kubernetes'i natiivne asünkroonne arhitektuur töötleb suuri pakette lukustumiseta. Helm-charts haldavad juurutamist ja skaleerimist ARM instantsidel.

Image

Tulemused numbrites

Transkriptsiooni täpsus

99%

Täpsus inglise ja aramea keele helisisu korral koos automaatse õige õigekirja ja diakriitiliste märkide rakendamisega.

Paralleelsed ülesanded

300+

Transkriptsioonülesanded töödeldakse samaaegselt nutika järjekorralduse halduse ja adaptiivse taandega.

Madalamad API kulud

60%

Sääst dünaamilise mudeli valiku abil — kergemad mudelid töötlevad automaatselt lühemat sisu.

Andmete säilitamine

100%

Andmete kadumise puudumine isegi ühenduse katkemiste korral koos automaatse sünkroonimisega pärast ühenduse taastamist.

Kas teil on miljonite minutite töötlemine? Teeme liini üles!

Rääkige oma sisualast ülesandest või broneerige tasuta konsultatsioon – koostame lahenduse vastavalt teie mahule, keeltele ja tarnetingimustele.

Message not sent.
Message not sent.
×
Ei tea, kust alustada? Me aitame teil järgmised sammud planeerida!
Nõusolek isikuandmete töötlemiseks
×
Kas teil on väljakutse? Meie meeskond muudab selle lahenduseks.
Nõusolek isikuandmete töötlemiseks