Vertexi transkribeerimisteenus
Juhtumi ülevaade
Tehisintellektil põhinev meediateenindusplatvorm, mis on loodud töötlema miljoneid minutit heli- ja videomaterjali. Võtab Aramea ja inglise keeles loengute salvestused ning muudab need puhtaks, vormindatud tekstiks koos korrektse kirjavahemärgistuse, diakriitikaga, kontrollitud viidetega ja ajastatud subtiitritega. Kui videofail saabub, tuvastab süsteem selle automaatselt, eraldab heli ja juhib selle sama transkribeerimisprotsessi kaudu.
Eesmärk: Luuakse meedia töövoog, mis suudab töödelda miljoneid minutit sisu ja pakub avaldamiseks valmis teksti, subtiitreid ning HLS-vooge - võimalikult vähese käsitsitööga. Töötleb nii heli kui videot ühe töövoo kaudu, transkribeerib mitmekeelse sisu kõrge täpsusega ning skaleerub dünaamiliselt Kubernetes'iga, et hallata üle 300 samaaegse salvestuse partiid.
Projekti põhiinfo
Tööstusharud
Haridussisu platvormid, usulised asutused, meediaväljaanded, e-õppe ettevõtted, loenguarhiivid, akadeemilised sisukogud.
Teenused
Tehisintellekti transkribeerimine, video töötlemine, heli eraldamine, HLS mitme bitikiirusega kodeerimine, subtiitrite genereerimine, partii orkestreerimine, allikaviidete kontroll, pilvesalvestuse teenus, pildi ja eelvaate loomine.
Lahendused
Ühtne heli- ja videotöövoog, automaatne vormingu tuvastus, mitmekeelne transkribeerimine, kirjavahemärkide ja diakriitikaga skripti konverteerimine, vaikusepõhine failide lõhustamine, ajakoodide ühendamine, usuliste viidete kontroll, dünaamiline tehisintellekti mudelite valik.
Tehnoloogiad
Python, FastAPI, Google Vertex AI, Gemini Pro, Gemini Flash, Gemini Flash-Lite, FFmpeg, FFprobe, AWS S3, Google Cloud Storage, Kubernetes, Helm, Docker, ARM serverid, HLS (m3u8), asünkroonne Python, ühenduste haldus, CI/CD töövoog.
Väljakutsed
Protsess
Iga fail — olgu see toores audiosaade või täispikk videokõne — liigub läbi ühe automatiseeritud töövoo. Kaheksa järjestikust etappi viivad selle toorandmetest avaldamiseks valmis väljundini, videoprotsessid toimuvad paralleelselt, nii et miski ei peatu ega oota teisel.
Meedia tuvastamine ja ettevalmistus
FFprobe tuvastab, kas fail on heli või video. Videol eraldatakse automaatselt heliriba. Kestuse ja vormingu analüüs määrab edasise töötlemise strateegia.
Heli lõhustamine vaikuse abil
Üle 20 minuti pikkused failid jaotatakse loomulikul vaikusehetkel osadeks, nii et lauset ei katketa pooleldi, võimaldades kõigi tükkide samaaegset paralleelset transkribeerimist.
Tehisintellekti transkribeerimine
Iga tükk saadetakse Gemini Pro või Flash mudelile — valik sõltub sisust —, kus struktuuritud skeem sunnib mudelit tagastama ajastatud teksti koos kõnelejate märgistusega.
Ajakava ühendamine
Kõik transkribeeritud osad ühendatakse õigete ajakohandustega üheks sujuvaks dokumendiks, kus salvestuse ajastamine on 99% täpne.
Teksti järelkäsitlus
Toores transkriptsioon läbib kirjavahemärgistuse konverteerimise, diakriitikate lisamise, vorminduse puhastamise ja usuliste allikaviidete kontrolli välishalduse baasil.
Video töötlemine (paralleelselt)
Transkribeerimise ajal käivitub video moodul, mis tegeleb HLS mitme bitikiirusega kodeerimise, pisipiltide loomise, eelvaate klippide valmistamise ja mitme heliraja haldamisega FFmpeg'i kaudu.
Subtiitrite ja kokkuvõtete genereerimine
Lõplikust kontrollitud tekstist luuakse ajastatud subtiitrite failid (.vtt / .srt) koos automaatse metaandmete kokkuvõttega sisukogule.
Pilve vahendusel levitamine
Kõik — transkriptsioonid, subtiitrid, kokkuvõte, HLS-vood — laaditakse AWS S3-le ning lingid edastatakse sisutiimile. 100% andmekao kindlustatus ka ühendushäiretel.
Lahendused
Lahenduse põhiomadused
Ühtne heli- ja videotöövoog — FFprobe tuvastab formaadid automaatselt. Üks sisendpunkt töötleb MP4, MKV, WebM, MOV ja heli ilma käsitsi konverteerimiseta.
Mitmekeelne tehisintellekti transkriptsioon — Töötleb inglise, aramea ja segakeelset salvestusi, kasutades keelipiire säilitavat ning õigeid kirjasüsteemi konventsioone järgivat juhendamist.
Dünaamiline tehisintellekti mudeli valik — Pro, Flash ja Flash-Lite tasemed valitakse automaatselt faili pikkuse ja sisu tüübi põhjal — maksimeerides täpsust ja minimeerides API kulutusi.
HLS mitme bitikiiruse voogedastus — Kõrvuti video töötlemine loob adaptiivse bitikiirusega vooge, pisipilte ja eelvaateklippe, mis sobivad igas moodsas videopleieris esitamiseks.
300+ samaaegset partiitöötlust — Kubernetesi-loomupärane asünkroonne arhitektuur käsitleb suuri partii tõkkeideta. Helm kaardid haldavad juurutamist ja skaala muutmist ARM instantsidel.
Tulemused numbrites
99%
Täpsus inglise ja aramea heli sisu puhul, kus õiged kirjamärgid ja diakriitilised märgid rakenduvad automaatselt.
300+
Transkriptsioonitööd töödeldakse samaaegselt, kasutades nutikat järjekorra haldamist ja adaptiivset tagasilangust.
60%
Säästmisvõimalus dünaamilise mudeli valiku kaudu — kergemad mudelid töötlevad automaatselt lühemaid sisusid.
100%
Nullandmekadu isegi ühenduse katkemise ajal, automaatse sünkroniseerimisega ühenduse taastumisel.