Multi-linguality in speech technologies
Public support
Provider
Ministry of Education, Youth and Sports
Programme
INTER-EXCELLENCE
Call for proposals
SMSM2019LTAIN
Main participants
Vysoké učení technické v Brně / Fakulta informačních technologií
Contest type
VS - Public tender
Contract ID
MSMT-2066/2020-8
Alternative language
Project name in Czech
Multi-lingualita v řečových technologiích
Annotation in Czech
Technologie dolování řečových dat a rozhraní člověk-stroj založené na řeči zažily v posledním desetiletí významné pokroky a řada aplikací byla úspěšně komercializována. Obvykle však fungují správně pouze v příznivých scénářích - v jazycích s množstvím dat pro trénování a v relativně čistém prostředí, jako je kancelář nebo byt. Na rychle se rozvíjejících velkých trzích, jako je ten indický, ztěžují využívání řeči závažné problémy: mnoho jazyků (některé z nich s omezenými nebo chybějícími zdroji), velmi hlučné podmínky (spousta obchodů se jednoduše provádí na ulicích indických měst) a variabilní počet mluvčích v konverzaci (od běžných dvou po celé rodiny). Díky tomu je vývoj automatického rozpoznávání řeči (automatic speech recognition, ASR), rozpoznávání mluvčího (speaker recognition, SR) a diarizace mluvčích (určení, kdo kdy mluvil, speaker diarization, SD) komplikovaný. Hlavním cílem tohoto projektu je tedy zlepšení úspěšnosti automatického rozpoznávání řeči aplikovaného na jazyky s nedostatečnými zdroji v náročných podmínkách. Dílčí cíle zahrnují: 1. Pokrok ve vícejazyčném trénování extraktorů příznaků a akustických modelů; 2. Zdokonalení technik adaptace ASR ve vícejazyčných scénářích; 3. Využití nedokonale anotovaných dat nebo dat zcela bez anotací; 4. Výzkum efektivních technik detekce a zpracování slov mimo slovník (OOV); 5. Výzkum ASR ve scénářích, kde jazyky a dialekty tvoří jazykové kontinuum (zejména v Indii dochází každých několik kilometrů ke změnám ve stylu mluvy); 6. Definice základní architektury a rámce rozvoje pro end-to-end ASR systémy ve vícejazyčném prostředí; 7. Výzkum vedoucí k rychlému uplatňování výsledků ve výpočetních cloudech i v koncových zařízeních; 8. validace výsledků výzkumu v kontextu reálných průmyslových scénářů definovaných SRI-B.
Scientific branches
R&D category
ZV - Basic research
OECD FORD - main branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - secondary branch
—
OECD FORD - another secondary branch
—
CEP - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
AF - Documentation, librarianship, work with information<br>BC - Theory and management systems<br>BD - Information theory<br>IN - Informatics
Completed project evaluation
Provider evaluation
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Project results evaluation
The project contributed to substantial improvement of speech recognition in conditions of low-resource data. Excellent results were achieved in several international evaluations. The beginning was marked by the COVID pandemic leading to virtual meetings, since 2022 the project has supported several IN-CZ exchanges. The key event was the Interspeech 2021 conference in Brno.
Solution timeline
Realization period - beginning
Jan 1, 2020
Realization period - end
Aug 31, 2023
Project status
U - Finished project
Latest support payment
Feb 20, 2023
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP24-MSM-LT-U
Data delivery date
Jul 1, 2024
Finance
Total approved costs
5,919 thou. CZK
Public financial support
5,919 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK