Software modules for automatic transcription and processing of spoken Swedish
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F24%3A00013471" target="_blank" >RIV/46747885:24220/24:00013471 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Softwarové moduly pro automatický přepis a zpracování mluvené švédštiny
Original language description
Jedná se o modulární softwarovou technologii, která umožňuje automaticky převádět mluvenou norštinu do textové podoby. Jádro systému je tvořeno hlubokou neuronovou sítí typu transformer, která na vstupu zpracovává akustický signál a jejíž výstupní hypotézy (rozpoznané slovní jednotky a části slov bez kapitalizace) jsou v reálném čase vyhodnocovány pomocí dekodéru. Dekódovaná výstupní sekvence slov je pak formátována do požadované podoby pomocí speciálního modulu, který provádí postprocessing rozpoznaného textu - například převádí číslovky do číslic apod. Poslední modul, který využívá předtrénovaný jazykový model, pak do rozpoznaného textu automaticky doplňuje tečky a čárky a umožňuje také automaticky zvětšovat počáteční písmena jednotlivých rozpoznaných slov. Specifickou vlastností tohoto softwaru je, že byl trénován na různých dialektech švédštiny, včetně toho, který se oficiálně používá ve Finsku.
Czech name
Softwarové moduly pro automatický přepis a zpracování mluvené švédštiny
Czech description
Jedná se o modulární softwarovou technologii, která umožňuje automaticky převádět mluvenou norštinu do textové podoby. Jádro systému je tvořeno hlubokou neuronovou sítí typu transformer, která na vstupu zpracovává akustický signál a jejíž výstupní hypotézy (rozpoznané slovní jednotky a části slov bez kapitalizace) jsou v reálném čase vyhodnocovány pomocí dekodéru. Dekódovaná výstupní sekvence slov je pak formátována do požadované podoby pomocí speciálního modulu, který provádí postprocessing rozpoznaného textu - například převádí číslovky do číslic apod. Poslední modul, který využívá předtrénovaný jazykový model, pak do rozpoznaného textu automaticky doplňuje tečky a čárky a umožňuje také automaticky zvětšovat počáteční písmena jednotlivých rozpoznaných slov. Specifickou vlastností tohoto softwaru je, že byl trénován na různých dialektech švédštiny, včetně toho, který se oficiálně používá ve Finsku.
Classification
Type
R - Software
CEP classification
—
OECD FORD branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Result continuities
Project
<a href="/en/project/TO01000027" target="_blank" >TO01000027: NORDTRANS - Technology for automatic speech transcription in selected Nordic languages</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2024
Confidentiality
C - Předmět řešení projektu podléhá obchodnímu tajemství (§ 504 Občanského zákoníku), ale název projektu, cíle projektu a u ukončeného nebo zastaveného projektu zhodnocení výsledku řešení projektu (údaje P03, P04, P15, P19, P29, PN8) dodané do CEP, jsou upraveny tak, aby byly zveřejnitelné.
Data specific for result type
Internal product ID
SE2024
Technical parameters
Software umožňuje on-line i off-line přepis řeči ve švédštině s latencí několika sekund a paměťovými nároky v řádu jednotek GB. Kromě toho obsahuje i další moduly umožňující provádět postprocsesing rozpoznaného textu a automaticky do něj doplňovat interpunkci. Podrobný popis a dosažené výsledky včetně porovnání s podobnými systémy firem Google a Microsoft (přičemž úspěšnost našeho systému vychází lépe) jsou předmětem vědeckého článku v časopisu Speech Communication (2Q). Odkaz: Mateju, L., Nouza, J., Cerva, P., & Zdansky, J. (2025). Combining multilingual resources to enhance end-to-end speech recognition systems for Scandinavian languages. Speech Communication, 170, 103221. Kontaktní osoba Petr Červa (petr.cerva@tul.cz)..
Economical parameters
Společnost NEWTON Technologies integruje uvedený software dle smlouvy s TUL do své platformy Beey a na jejím základě pak poskytuje různé služby přepisu řeči (monitoring televizního a rozhlasového vysílání, přepis audio nahrávek, atd.) zákazníkům z oblasti Skandinávie. To společnosti přináší zvýšení tržeb z prodeje služeb při zachování nízkých provozních nákladů zejména díky automatickému, hromadnému a paralelnímu nasazení..
Owner IČO
46747885; 28479777
Owner name
Technická univerzita v Liberci; NEWTON Technologies a.s.