A Study on Adapting Czech Automatic Speech Recognition System to Croatian Language
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F12%3A%230002001" target="_blank" >RIV/46747885:24220/12:#0002001 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
A Study on Adapting Czech Automatic Speech Recognition System to Croatian Language
Popis výsledku v původním jazyce
After successful adaptation of our Czech large-vocabulary speech recognition system to Slovak, we investigate the possibility to port it to another Slavic language, Croatian in this case. We describe how we build a large lexicon (recently with 255 thousand entries) and a language model from publicly available Internet sources and how an existing Czech acoustic model (AM) can be utilized for bootstrapping and training a model applicable for Croatian. For the AM adaptation we use the Croatian part of theGlobalPhone database. An independent evaluation is done on a test set made of transcribed broadcast recordings of Radio Pula. When using the original Czech acoustic model, the word error rate is 27.6 %, with the model adapted to Croatian, it is reduced to 19.4 %.
Název v anglickém jazyce
A Study on Adapting Czech Automatic Speech Recognition System to Croatian Language
Popis výsledku anglicky
After successful adaptation of our Czech large-vocabulary speech recognition system to Slovak, we investigate the possibility to port it to another Slavic language, Croatian in this case. We describe how we build a large lexicon (recently with 255 thousand entries) and a language model from publicly available Internet sources and how an existing Czech acoustic model (AM) can be utilized for bootstrapping and training a model applicable for Croatian. For the AM adaptation we use the Croatian part of theGlobalPhone database. An independent evaluation is done on a test set made of transcribed broadcast recordings of Radio Pula. When using the original Czech acoustic model, the word error rate is 27.6 %, with the model adapted to Croatian, it is reduced to 19.4 %.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2012
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proc. of 54th International Symposium ELMAR-2012
ISBN
978-1-4673-1243-1
ISSN
1334-2630
e-ISSN
—
Počet stran výsledku
4
Strana od-do
227-230
Název nakladatele
—
Místo vydání
Zadar, Chorvatsko
Místo konání akce
Zadar, Chorvatsko
Datum konání akce
1. 1. 2012
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—