Softwarové moduly pro automatický přepis a zpracování mluvené švédštiny
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F24%3A00013471" target="_blank" >RIV/46747885:24220/24:00013471 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Softwarové moduly pro automatický přepis a zpracování mluvené švédštiny
Popis výsledku v původním jazyce
Jedná se o modulární softwarovou technologii, která umožňuje automaticky převádět mluvenou norštinu do textové podoby. Jádro systému je tvořeno hlubokou neuronovou sítí typu transformer, která na vstupu zpracovává akustický signál a jejíž výstupní hypotézy (rozpoznané slovní jednotky a části slov bez kapitalizace) jsou v reálném čase vyhodnocovány pomocí dekodéru. Dekódovaná výstupní sekvence slov je pak formátována do požadované podoby pomocí speciálního modulu, který provádí postprocessing rozpoznaného textu - například převádí číslovky do číslic apod. Poslední modul, který využívá předtrénovaný jazykový model, pak do rozpoznaného textu automaticky doplňuje tečky a čárky a umožňuje také automaticky zvětšovat počáteční písmena jednotlivých rozpoznaných slov. Specifickou vlastností tohoto softwaru je, že byl trénován na různých dialektech švédštiny, včetně toho, který se oficiálně používá ve Finsku.
Název v anglickém jazyce
Software modules for automatic transcription and processing of spoken Swedish
Popis výsledku anglicky
This modular software technology allows to convert spoken Norwegian into text form automatically. The system‘s core consists of a transformer-based deep neural network that processes an acoustic signal as input and whose output hypotheses (recognized sub-word units) are evaluated in real-time by a decoder. The decoded output sequence of words is then formatted into the desired form by a special module that performs post-processing of the recognized text - for example, it converts digits into numerals, etc. The last module, which uses a pre-trained language model, then automatically adds periods and commas to the recognized text and allows each recognized word‘s initial letters to be automatically capitalized. A specific feature of this software is that it has been trained on various dialects of Swedish, including the one officially used in Finland.
Klasifikace
Druh
R - Software
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/TO01000027" target="_blank" >TO01000027: NORDTRANS - Technologie pro automatický přepis řeči ve vybraných severských jazycích</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
C - Předmět řešení projektu podléhá obchodnímu tajemství (§ 504 Občanského zákoníku), ale název projektu, cíle projektu a u ukončeného nebo zastaveného projektu zhodnocení výsledku řešení projektu (údaje P03, P04, P15, P19, P29, PN8) dodané do CEP, jsou upraveny tak, aby byly zveřejnitelné.
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
SE2024
Technické parametry
Software umožňuje on-line i off-line přepis řeči ve švédštině s latencí několika sekund a paměťovými nároky v řádu jednotek GB. Kromě toho obsahuje i další moduly umožňující provádět postprocsesing rozpoznaného textu a automaticky do něj doplňovat interpunkci. Podrobný popis a dosažené výsledky včetně porovnání s podobnými systémy firem Google a Microsoft (přičemž úspěšnost našeho systému vychází lépe) jsou předmětem vědeckého článku v časopisu Speech Communication (2Q). Odkaz: Mateju, L., Nouza, J., Cerva, P., & Zdansky, J. (2025). Combining multilingual resources to enhance end-to-end speech recognition systems for Scandinavian languages. Speech Communication, 170, 103221. Kontaktní osoba Petr Červa (petr.cerva@tul.cz)..
Ekonomické parametry
Společnost NEWTON Technologies integruje uvedený software dle smlouvy s TUL do své platformy Beey a na jejím základě pak poskytuje různé služby přepisu řeči (monitoring televizního a rozhlasového vysílání, přepis audio nahrávek, atd.) zákazníkům z oblasti Skandinávie. To společnosti přináší zvýšení tržeb z prodeje služeb při zachování nízkých provozních nákladů zejména díky automatickému, hromadnému a paralelnímu nasazení..
IČO vlastníka výsledku
46747885; 28479777
Název vlastníka
Technická univerzita v Liberci; NEWTON Technologies a.s.