All

What are you looking for?

All

Projects

Results

Organizations

Quick search

Projects supported by TA ČR
Excellent projects
Projects with the highest public support
Current projects

Smart search

That is how I find a specific +word
That is how I leave the -word out of the results
“That is how I can find the whole phrase”

EN

Čeština English

Multi-linguality in speech technologies

Public support

Provider
Ministry of Education, Youth and Sports
Programme
INTER-EXCELLENCE
Call for proposals
SMSM2019LTAIN
Main participants
Vysoké učení technické v Brně / Fakulta informačních technologií
Contest type
VS - Public tender
Contract ID
MSMT-2066/2020-8

Alternative language

Project name in Czech
Multi-lingualita v řečových technologiích
Annotation in Czech
Technologie dolování řečových dat a rozhraní člověk-stroj založené na řeči zažily v posledním desetiletí významné pokroky a řada aplikací byla úspěšně komercializována. Obvykle však fungují správně pouze v příznivých scénářích - v jazycích s množstvím dat pro trénování a v relativně čistém prostředí, jako je kancelář nebo byt. Na rychle se rozvíjejících velkých trzích, jako je ten indický, ztěžují využívání řeči závažné problémy: mnoho jazyků (některé z nich s omezenými nebo chybějícími zdroji), velmi hlučné podmínky (spousta obchodů se jednoduše provádí na ulicích indických měst) a variabilní počet mluvčích v konverzaci (od běžných dvou po celé rodiny). Díky tomu je vývoj automatického rozpoznávání řeči (automatic speech recognition, ASR), rozpoznávání mluvčího (speaker recognition, SR) a diarizace mluvčích (určení, kdo kdy mluvil, speaker diarization, SD) komplikovaný. Hlavním cílem tohoto projektu je tedy zlepšení úspěšnosti automatického rozpoznávání řeči aplikovaného na jazyky s nedostatečnými zdroji v náročných podmínkách. Dílčí cíle zahrnují: 1. Pokrok ve vícejazyčném trénování extraktorů příznaků a akustických modelů; 2. Zdokonalení technik adaptace ASR ve vícejazyčných scénářích; 3. Využití nedokonale anotovaných dat nebo dat zcela bez anotací; 4. Výzkum efektivních technik detekce a zpracování slov mimo slovník (OOV); 5. Výzkum ASR ve scénářích, kde jazyky a dialekty tvoří jazykové kontinuum (zejména v Indii dochází každých několik kilometrů ke změnám ve stylu mluvy); 6. Definice základní architektury a rámce rozvoje pro end-to-end ASR systémy ve vícejazyčném prostředí; 7. Výzkum vedoucí k rychlému uplatňování výsledků ve výpočetních cloudech i v koncových zařízeních; 8. validace výsledků výzkumu v kontextu reálných průmyslových scénářů definovaných SRI-B.

Scientific branches

R&D category
ZV - Basic research
OECD FORD - main branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - secondary branch
—
OECD FORD - another secondary branch
—
CEP - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
AF - Documentation, librarianship, work with information<br>BC - Theory and management systems<br>BD - Information theory<br>IN - Informatics

Completed project evaluation

Provider evaluation
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Project results evaluation
The project contributed to substantial improvement of speech recognition in conditions of low-resource data. Excellent results were achieved in several international evaluations. The beginning was marked by the COVID pandemic leading to virtual meetings, since 2022 the project has supported several IN-CZ exchanges. The key event was the Interspeech 2021 conference in Brno.

Solution timeline

Realization period - beginning
Jan 1, 2020
Realization period - end
Aug 31, 2023
Project status
U - Finished project
Latest support payment
Feb 20, 2023

Data delivery to CEP

Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP24-MSM-LT-U
Data delivery date
Jul 1, 2024

Finance

Total approved costs
5,919 thou. CZK
Public financial support
5,919 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK

Similar projects(10)

Neural networks for speech signal processing and data mining (TJ01000208) Speaker Adaptation Methods in Speech Recognition Systems (GPP103/11/P499) Language-independent spoken term detection (GPP202/12/P567)