Vertex Transcribe teenus

Juhtumi ülevaade

Tehisintellektil põhinev meediatöötluse platvorm, mis on loodud töötlema miljoneid minuteid heli- ja videomaterjali. See võtab vastu õppeloengute salvestusi — araamiakeelses ja ingliskeelses — ning muudab need puhtaks, vormindatud tekstiks koos õige skripti, diakriitikute, kontrollitud viidete ja ajastatud subtiitritega. Kui video fail saabub, tuvastab süsteem selle automaatselt, ekstraheerib heliraja ning suunab selle läbi sama transkriptsioonitoru.

Eesmärk: Luua meediatoru, mis suudab töödelda miljoneid minuteid sisu ja pakkuda väljaandmiseks valmis teksti, subtiitreid ja HLS voogusid - võimalikult vähe käsitööd nõudes. Töötle nii heli- kui videotöötlus ühe toru kaudu, transkribeeri mitmekeelset sisu kõrge täpsusega ning skaleeru dünaamiliselt Kubernetesel, et hallata üle 300 samaaegse salvestuse partiid.

Image

Põhiteave projekti kohta

Tööstusharud

Tööstusharud

Õppesisu platvormid, usulised asutused, meedia väljaandmine, e-õppe ettevõtted, loengute arhiivid, akadeemilise sisu raamatukogud.

Teenused

Teenused

Tehisintellekti transkriptsioon, videotöötlus, heli ekstraheerimine, HLS mitme bitikiiruse kodeerimine, subtiitrite genereerimine, partii orkestreerimine, lähteviidete kontroll, pilvesalvestuse kohaletoimetamine, pisipiltide ja eelvaadete loomine.

Lahendused

Lahendused

Ühtne heli- ja videotöötlustoru, automaatne formaadi tuvastus, mitmekeelne transkriptsioon, skripti teisendus diakriitikutega, vaikusepõhine failideks jagamine, ajatemplite kokkulappimine, usuliste viidete kontroll, dünaamiline tehisintellekti mudelite valik.

Tehnoloogiad

Tehnoloogiad

Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM instantsid, HLS (m3u8), asünkroonne Python, ühenduse haldus, CI/CD torujuhe.

Väljakutsed

Segakeelne keerukus

Segakeelne keerukus

Heli vahetub araamiakeelse, inglise ja teiste keelte vahel salvestuse jooksul. Õigeid diakriitikuid ja vormindust rakendati spetsiaalse tehisintellekti käskluse ja mitmeastmelise tekstitöötlusega.

Video ja heli ühises torus

Video ja heli ühises torus

Süsteem pidi töödelma nii puhast heli kui ka videokonteinereid. FFprobe-põhine automaattuvastus ekstraheerib helivoo mis tahes videoformaadist enne töötlemist — kasutaja sekkumist ei ole vaja.

Skaala miljonitele minutitele

Skaala miljonitele minutitele

Loodud nullist suure mahuga töötlemiseks: täielikult asünkroonne, paralleelne ja Kubernetesi natiivne, koos korraliku ressursside haldusega partiide mahu tõusude neelamiseks.

Nutikas failideks jagamine pikkade loengute heli jaoks

Nutikas failideks jagamine pikkade loengute heli jaoks

Loengud kestavad sageli üle tunni. Vaikusega tuvastusel põhinev lõikamine jagab faile loomulikult, ajatemplite kokkulappimine tagab katkematu pideva ajatelje ilma lünka või kattuvusteta.

Tark taaskäivitussüsteem tehisintellekti töökoormustele

Tark taaskäivitussüsteem tehisintellekti töökoormustele

Sajad samaaegsed AI ülesanded suruvad pakkujate limiidid maksimaalselt täis. Nutikas taaskäivituse loogika, adaptiivne eksponentsiaalne tagasilöök ja järjekorra haldamine hoiavad toru liikumas ilma tööde kadumiseta.

Tehisintellekti mudelite valik kuluefektiivsuse tagamiseks

Tehisintellekti mudelite valik kuluefektiivsuse tagamiseks

Kolm AI mudelitaset — võimas, kiire ja kergekaaluline — valitakse dünaamiliselt sõltuvalt sisu pikkusest ja keerukusest, pakkudes kuni 60% madalamaid API-kulusid lühema sisu korral.

Protsess

Iga fail — olgu see siis tooraine heli loeng või täielik videosalvestis — liigub läbi ühe automatiseeritud toru. Kaheksa järjestikust etappi viivad selle toorandmetest väljaandmiseks valmis tulemuseks, videote töötlemine jookseb paralleelselt, nii et miski ei pea midagi ootele.

Meedia tuvastamine ja ettevalmistamine

Meedia tuvastamine ja ettevalmistamine

FFprobe tuvastab, kas fail on heli- või videofail. Video korral ekstraheeritakse heliriba automaatselt. Kestuse ja formaadi analüüs määrab töötlemisstrateegia.

Vaikusepõhine heli jagamine

Vaikusepõhine heli jagamine

Failid, mis on pikemad kui 20 minutit, jagatakse vaikuse loomulikele punktidele, et mitte katkestada fraasi keskel lauset, võimaldades kõigi osade paralleelset transkriptsiooni samaaegselt.

Tehisintellekti transkriptsioon

Tehisintellekti transkriptsioon

Iga lõik saadetakse Gemini Pro või Flashile — valitakse sisu pikkuse järgi — koos struktureeritud skeemiga, mis sunnib mudelit tagastama ajatempliga tekstiga kõnelejate siltidega.

Ajatelje kokkulappimine

Ajatelje kokkulappimine

Kõik transkribeeritud osad lappitakse kokku koos õigete ajanihetustega üheks sujuvaks dokumendiks, saavutades 99% täpsusega ajatemplite joondamise kogu salvestuse ulatuses.

Teksti järelhõõrdumine

Teksti järelhõõrdumine

Toores transkriptsioon läbib skripti teisenduse, diakriitikute lisamise, vorminduse puhastuse ja usuliste viidete kontrolli välise andmebaasi vastu.

Videotöötlus (paralleelselt)

Videotöötlus (paralleelselt)

Transkriptsiooni käigus haldab videomoodul HLS mitme bitikiiruse kodeerimist, pisipiltide loomist, eelvaate videolõikude koostamist ja mitme helivoo töötlemist FFmpeg abil.

Subtiitrite ja kokkuvõtete genereerimine

Subtiitrite ja kokkuvõtete genereerimine

Lõplikust kontrollitud tekstist genereeritakse ajastatud subtiitrite failid (.vtt / .srt) koos automaatse metainfo kokkuvõttega sisuraamatukogule.

Pilve kohaletoimetamine

Pilve kohaletoimetamine

Kõik – transkriptsioon, subtiitrid, kokkuvõte, HLS vood – laaditakse üles AWS S3-le ja lingid antakse sisu meeskonnale. Andmete säilimine 100% isegi ühenduse katkemiste korral.

Lahendused

Põhilised lahenduse omadused

  • Ühtne heli- ja videotöötlustoru FFprobe tuvastab formaadid automaatselt. Üks sisenemispunkt käsitleb MP4, MKV, WebM, MOV ja heli teisendusi käsitsi konverteerimata.

  • Mitmekeelne tehisintellekti transkriptsioon — Töötleb inglise, heebrea ja segakeelseid salvestisi, säilitades keelepiirid ja rakendades õigeid kirjakonventsioone.

  • Dünaamiline tehisintellekti mudeli valik — Pro, Flash ja Flash-Lite tasemed valitakse automaatselt faili pikkuse ja sisutüübi alusel — maksimeerides täpsust ja minimeerides API kulusid.

  • HLS mitme bitikiirusega voogedastus — Paralleelne video töötlemine loob adaptiivsete bitikiirustega vooge, pisipilte ja eelvaateklippe, mis sobivad igale kaasaegsele videopleierile.

  • 300+ samal ajal töödeldavat partiitööd — Kubernetes-i-põhine asünkroonne arhitektuur haldab suuri partiisid ilma blokeerimiseta. Helm diagrammid juhivad juurutamist ja skaala ARM instantsidel.

Image

Tulemused numbrites

Transkriptsiooni täpsus

99%

Täpsus inglise ja heebrea helisisu puhul, kus õige kirjakujundus ja diakriitilised märgid rakenduvad automaatselt.

Samasajalised tööd

300+

Transkriptsioonitööd töödeldakse samaaegselt nutika järjekorralduse ning adaptiivse tagasipõrke haldusega.

Madalamad API kulud

60%

Säästud dünaamilise mudelivaliku kaudu — kerged mudelid töötlevad lühemaid sisusid automaatselt.

Andmete säilitamine

100%

Andmete kadumiseta ka ühenduse katkestuste ajal, automaatne sünkroonimine, kui ühendus taastub.

Kas teil on miljoneid minuteid töötlemiseks? Loome torujuhtme!

Rääkige meile oma sisuväljakutsest või broneerige tasuta konsultatsioon — me koostame lahenduse, mis vastab teie mahule, keeltele ja kohaletoimetamise nõuetele.

Message not sent.
Message not sent.
×
Ei tea, kust alustada? Me aitame teil järgmised sammud planeerida!
Nõusolek isikuandmete töötlemiseks
×
Sul on väljakutse? Meie meeskond muudab selle lahenduseks.
Nõusolek isikuandmete töötlemiseks