Multi-lingualita v řečových technologiích
Veřejná podpora
Poskytovatel
Ministerstvo školství, mládeže a tělovýchovy
Program
INTER-EXCELLENCE
Veřejná soutěž
SMSM2019LTAIN
Hlavní účastníci
Vysoké učení technické v Brně / Fakulta informačních technologií
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
MSMT-2066/2020-8
Alternativní jazyk
Název projektu anglicky
Multi-linguality in speech technologies
Anotace anglicky
Speech data mining technologies and human-machine interfaces based on speech have witnessed significant advances in the past decade and numerous applications have been successfully commercialized. However, they usually work correctly only in favorable scenarios - in languages with abundance of training data and in relatively clean environments, such as office or apartment. In fast developing big markets such as the Indian one, severe problems make the exploitation of speech difficult: highly noisy conditions (lots of business is simply done on the streets in Indian cities), highly variable numbers of speakers in a conversation (from normal two to whole families), and a multitude of languages (some of them with limited or missing resources). These make the development of automatic speech recognition (ASR), speaker recognition (SR) and speaker diarization (determining who spoke when, SD) complicated. The overall goal of this project is improving the performance of automatic speech recognition when applied on under-resources languages in challenging conditions. The individual goals include: 1. Multi-lingual training of feature extractors and acoustic models; 2. ASR adaptation in multi-lingual scenarios; 3. Using loosely annotated data or completely raw data; 4. OOV detection and processing into; 5. Advancing the ASR in scenarios, where languages and dialects are forming a language continuum; 6. Setting up a baseline architecture and development framework in the context of E2E ASR systems; 7. Providing inputs into research directions that will ensure flexible application of outcomes in the context of both cloud based and on-device ASR systems; 8. Validating the research results in the context of real world problems
Vědní obory
Kategorie VaV
ZV - Základní výzkum
OECD FORD - hlavní obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - vedlejší obor
—
OECD FORD - další vedlejší obor
—
CEP - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
AF - Dokumentace, knihovnictví, práce s informacemi<br>BC - Teorie a systémy řízení<br>BD - Teorie informace<br>IN - Informatika
Hodnocení dokončeného projektu
Hodnocení poskytovatelem
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Zhodnocení výsledků projektu
Projekt přispěl k podstatnému zlepšení systémů pro rozpoznávání řeči v podmínkách malého množství trénovacích dat. Bylo dosaženo vynikajících výsledků v několika mezinárodních evaluacích. Začátek projektu byl poznamenán pandemií COVID vedoucí k virtuálním setkáním, od roku 2022 projekt podpořil několik výměn mezi Indií a Českem. Klíčovou akcí byla organizace konference Interspeech 2021 v Brně.
Termíny řešení
Zahájení řešení
1. 1. 2020
Ukončení řešení
31. 8. 2023
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
20. 2. 2023
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP24-MSM-LT-U
Datum dodání záznamu
1. 7. 2024
Finance
Celkové uznané náklady
5 919 tis. Kč
Výše podpory ze státního rozpočtu
5 919 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč