Sběr a anotace databáze spontánních promluv
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F08%3A03149222" target="_blank" >RIV/68407700:21230/08:03149222 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Sběr a anotace databáze spontánních promluv
Popis výsledku v původním jazyce
Nasazení rozpoznávače řeči v reálném systému přináší nutnost rozpoznávat promluvy spontánního charakteru snímané v reálném prostředí. Databáze čtené řeči, které jsou často využívané pro trénování rozpoznávačů řeči, nejsou pro trénování takových robustních systémů vhodné, neboť nevystihují správně charakter spontánních promluv, především s ohledem na výskyt neřečových událostí, použitý slovník, změny ve výslovnosti a slovosledu apod. Prezentovaná databáze spontánních promluv tak pomáhá doplnit tyto jevyve stávající sadě řečových dat. Příspěvek popisuje postup nahrávání a anotace přednášek s technickou tématikou a uvádí porovnání těchto promluv s čtenou řečí. Dále je uveden postup automatického zarovnání, který vede ke snížení počtu označených méně významných neřečových událostí. Experiment s rozpoznáváním váhavých pauz ukazuje přínos spontánních řečových dat pro kvalitu modelování těchto událostí.
Název v anglickém jazyce
Collection and annotation of spontaneous speech database
Popis výsledku anglicky
Speech recognition used in real system works with spontaneous speech recorded in real environment. Read speech databases are not optimal for training such system, as this kind of speech does not simulate the real character of natural speech, its vocabulary, disfluencies or irregularities. The presented database extends the available read speech data for this kind of utterances. The paper describes the the recording and annotation of lectures on technical topic and their comparison to read speech. Automated forced-alignment procedure decreases the amount of inextensible non-speech event marks. The final experiment shows the contribution of such spontaneous data to the quality of filled pause model in non-speech event recognition task.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JA - Elektronika a optoelektronika, elektrotechnika
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2008
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Analýza a zpracování řečových a biologických signálů - sborník prací 2008
ISBN
978-80-01-04243-4
ISSN
—
e-ISSN
—
Počet stran výsledku
8
Strana od-do
—
Název nakladatele
České vysoké učení technické v Praze
Místo vydání
Praha
Místo konání akce
Praha
Datum konání akce
1. 10. 2008
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—