Rozpoznávání spontánní řeči - několik problémů a jejich řešení
Popis výsledku
Je obecně známo, že rozpoznávání spontánní řeči je extrémně náročná úloha a to především kvůli častým přerušením řeči, nespisovným výrazům a velkému počtu slov mimo slovník (OOV). Vzhledem k velmi častému používání nespisovných slov je také velký nedostatek vhodných trénovacích dat pro jazykové modelování. Zmínění fakt často dramaticky snižuje výsledky rozpoznávání (Acc). Tento článek se snaží popsat některé techniky odstraňující tyto problémy.
Klíčová slova
spontaneous speechLVCSRspeech recognitionlanguage modelingcolloquial speechOOV words
Identifikátory výsledku
Kód výsledku v IS VaVaI
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Recognition of spontaneous speech - some problems and their solutions
Popis výsledku v původním jazyce
It is widely known that the recognition of spontaneous speech is an extremely challenging task due to the frequent occurrence of speech disfluences, colloquial words and a large number of Out-Of-Vocabulary (OOV) words. Owing to very common ungrammaticalform of pronounced sentences there is also the lack of appropriate in-domain training data for language modeling. Mentioned phenomena often dramatically decrease the recognition accuracy (Acc). This paper wants to describe several techniques which try toalleviate any of these problems.
Název v anglickém jazyce
Recognition of spontaneous speech - some problems and their solutions
Popis výsledku anglicky
It is widely known that the recognition of spontaneous speech is an extremely challenging task due to the frequent occurrence of speech disfluences, colloquial words and a large number of Out-Of-Vocabulary (OOV) words. Owing to very common ungrammaticalform of pronounced sentences there is also the lack of appropriate in-domain training data for language modeling. Mentioned phenomena often dramatically decrease the recognition accuracy (Acc). This paper wants to describe several techniques which try toalleviate any of these problems.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
1P05ME786: Automatická analýza spontánní řeči v rozsáhlých archívech audionahrávek
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2006
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
CITSA 2006
ISBN
978-980-6560-83-3
ISSN
—
e-ISSN
—
Počet stran výsledku
4
Strana od-do
—
Název nakladatele
IIIS
Místo vydání
Orlando
Místo konání akce
Orlando, Florida, USA
Datum konání akce
23. 7. 2006
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000250912900031
Základní informace
Druh výsledku
D - Stať ve sborníku
CEP
JC - Počítačový hardware a software
Rok uplatnění
2006