Vertexi transkribeerimisteenus

Juhtumi ülevaade

Tehisintellektil põhinev meediateenindusplatvorm, mis on loodud töötlema miljoneid minutit heli- ja videomaterjali. Võtab Aramea ja inglise keeles loengute salvestused ning muudab need puhtaks, vormindatud tekstiks koos korrektse kirjavahemärgistuse, diakriitikaga, kontrollitud viidetega ja ajastatud subtiitritega. Kui videofail saabub, tuvastab süsteem selle automaatselt, eraldab heli ja juhib selle sama transkribeerimisprotsessi kaudu.

Eesmärk: Luuakse meedia töövoog, mis suudab töödelda miljoneid minutit sisu ja pakub avaldamiseks valmis teksti, subtiitreid ning HLS-vooge - võimalikult vähese käsitsitööga. Töötleb nii heli kui videot ühe töövoo kaudu, transkribeerib mitmekeelse sisu kõrge täpsusega ning skaleerub dünaamiliselt Kubernetes'iga, et hallata üle 300 samaaegse salvestuse partiid.

Image

Projekti põhiinfo

Tööstusharud

Tööstusharud

Haridussisu platvormid, usulised asutused, meediaväljaanded, e-õppe ettevõtted, loenguarhiivid, akadeemilised sisukogud.

Teenused

Teenused

Tehisintellekti transkribeerimine, video töötlemine, heli eraldamine, HLS mitme bitikiirusega kodeerimine, subtiitrite genereerimine, partii orkestreerimine, allikaviidete kontroll, pilvesalvestuse teenus, pildi ja eelvaate loomine.

Lahendused

Lahendused

Ühtne heli- ja videotöövoog, automaatne vormingu tuvastus, mitmekeelne transkribeerimine, kirjavahemärkide ja diakriitikaga skripti konverteerimine, vaikusepõhine failide lõhustamine, ajakoodide ühendamine, usuliste viidete kontroll, dünaamiline tehisintellekti mudelite valik.

Tehnoloogiad

Tehnoloogiad

Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM serverid, HLS (m3u8), asünkroonne Python, ühenduste haldus, CI/CD töövoog.

Väljakutsed

Segakeelne keerukus

Segakeelne keerukus

Heli vahetub salvestuse jooksul Aramea, inglise ja teiste keelte vahel. Õige kirjavahemärgi ja vorminduse rakendamiseks oli vaja spetsiaalset tehisintellekti juhendamist ja mitmeastmelist tekstipõhist töötlemist.

Video ja heli ühe töövoos

Video ja heli ühe töövoos

Süsteem pidi töötlema nii puhast heli kui videofaile. FFprobe-põhine automaatne tuvastus eraldab heliraja kõigist videoformaatidest enne töötlemist — kasutaja sekkumine pole vajalik.

Skaleerimine miljonite minutite jaoks

Skaleerimine miljonite minutite jaoks

Arendatud suure mahuga töötlemiseks: täielikult asünkroonne, paralleelne ja Kubernetes-sõbralik ning ressursihaldus suudab toime tulla suurte partii koormuse kõikumistega.

Intelligentne failide lõhustamine pikkade loengute heli jaoks

Intelligentne failide lõhustamine pikkade loengute heli jaoks

Loengud kestavad sageli üle tunni. Vaikusepõhine lõhustamine jagab faile loomulikult, ajakoodide ühendamine taastab sujuva ja katkematu kronoloogilise järjekorra ilma lünkade või kattumisteta.

Tark kordusmehhanism tehisintellekti töökoormustele

Tark kordusmehhanism tehisintellekti töökoormustele

Sajad samaaegsed AI-jupid panevad teenusepakkuja piire proovile. Nutikas kordusloogika, kohanduv eksponentsiaalne viivitus ja järjekorra haldus hoiavad töövoogu sujuvana ilma tööde kaotuseta.

AI mudelite valik kulutõhususeks

AI mudelite valik kulutõhususeks

Kolm AI mudelite taset — võimas, kiire ja kergekaaluline — valitakse dünaamiliselt sisu pikkuse ja keerukuse järgi, pakkudes kuni 60% madalamaid API-kulusid lühema sisu puhul.

Protsess

Iga fail — olgu see toores audiosaade või täispikk videokõne — liigub läbi ühe automatiseeritud töövoo. Kaheksa järjestikust etappi viivad selle toorandmetest avaldamiseks valmis väljundini, videoprotsessid toimuvad paralleelselt, nii et miski ei peatu ega oota teisel.

Meedia tuvastamine ja ettevalmistus

Meedia tuvastamine ja ettevalmistus

FFprobe tuvastab, kas fail on heli või video. Videol eraldatakse automaatselt heliriba. Kestuse ja vormingu analüüs määrab edasise töötlemise strateegia.

Heli lõhustamine vaikuse abil

Heli lõhustamine vaikuse abil

Üle 20 minuti pikkused failid jaotatakse loomulikul vaikusehetkel osadeks, nii et lauset ei katketa pooleldi, võimaldades kõigi tükkide samaaegset paralleelset transkribeerimist.

Tehisintellekti transkribeerimine

Tehisintellekti transkribeerimine

Iga tükk saadetakse Gemini Pro või Flash mudelile — valik sõltub sisust —, kus struktuuritud skeem sunnib mudelit tagastama ajastatud teksti koos kõnelejate märgistusega.

Ajakava ühendamine

Ajakava ühendamine

Kõik transkribeeritud osad ühendatakse õigete ajakohandustega üheks sujuvaks dokumendiks, kus salvestuse ajastamine on 99% täpne.

Teksti järelkäsitlus

Teksti järelkäsitlus

Toores transkriptsioon läbib kirjavahemärgistuse konverteerimise, diakriitikate lisamise, vorminduse puhastamise ja usuliste allikaviidete kontrolli välishalduse baasil.

Video töötlemine (paralleelselt)

Video töötlemine (paralleelselt)

Transkribeerimise ajal käivitub video moodul, mis tegeleb HLS mitme bitikiirusega kodeerimise, pisipiltide loomise, eelvaate klippide valmistamise ja mitme heliraja haldamisega FFmpeg'i kaudu.

Subtiitrite ja kokkuvõtete genereerimine

Subtiitrite ja kokkuvõtete genereerimine

Lõplikust kontrollitud tekstist luuakse ajastatud subtiitrite failid (.vtt / .srt) koos automaatse metaandmete kokkuvõttega sisukogule.

Pilve vahendusel levitamine

Pilve vahendusel levitamine

Kõik — transkriptsioonid, subtiitrid, kokkuvõte, HLS-vood — laaditakse AWS S3-le ning lingid edastatakse sisutiimile. 100% andmekao kindlustatus ka ühendushäiretel.

Lahendused

Lahenduse põhiomadused

  • Ühtne heli- ja videotöövoog FFprobe tuvastab formaadid automaatselt. Üks sisendpunkt töötleb MP4, MKV, WebM, MOV ja heli ilma käsitsi konverteerimiseta.

  • Mitmekeelne tehisintellekti transkriptsioon — Töötleb inglise, aramea ja segakeelset salvestusi, kasutades keelipiire säilitavat ning õigeid kirjasüsteemi konventsioone järgivat juhendamist.

  • Dünaamiline tehisintellekti mudeli valik — Pro, Flash ja Flash-Lite tasemed valitakse automaatselt faili pikkuse ja sisu tüübi põhjal — maksimeerides täpsust ja minimeerides API kulutusi.

  • HLS mitme bitikiiruse voogedastus — Kõrvuti video töötlemine loob adaptiivse bitikiirusega vooge, pisipilte ja eelvaateklippe, mis sobivad igas moodsas videopleieris esitamiseks.

  • 300+ samaaegset partiitöötlust— Kubernetesi-loomupärane asünkroonne arhitektuur käsitleb suuri partii tõkkeideta. Helm kaardid haldavad juurutamist ja skaala muutmist ARM instantsidel.

Image

Tulemused numbrites

Transkriptsiooni täpsus

99%

Täpsus inglise ja aramea heli sisu puhul, kus õiged kirjamärgid ja diakriitilised märgid rakenduvad automaatselt.

Samaaegsed tööd

300+

Transkriptsioonitööd töödeldakse samaaegselt, kasutades nutikat järjekorra haldamist ja adaptiivset tagasilangust.

Madalamad API kulud

60%

Säästmisvõimalus dünaamilise mudeli valiku kaudu — kergemad mudelid töötlevad automaatselt lühemaid sisusid.

Andmete säilitamine

100%

Nullandmekadu isegi ühenduse katkemise ajal, automaatse sünkroniseerimisega ühenduse taastumisel.

Kas teil on miljoneid minuteid töötlemiseks? Loome andmevoo!

Rääkige meile oma sisu väljakutsest või broneerige tasuta konsultatsioon – kirjeldame teie mahule, keeltele ja esituse nõuetele kohandatud lahenduse.

Message not sent.
Message not sent.
×
Ei tea, kust alustada? Me aitame teil järgmised sammud planeerida!
Nõusolek isikuandmete töötlemiseks
×
Kas teil on väljakutse? Meie meeskond muudab selle lahenduseks.
Nõusolek isikuandmete töötlemiseks