Data preparation for online adaptation of LM
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F14%3A43923802" target="_blank" >RIV/49777513:23520/14:43923802 - isvavai.cz</a>
Result on the web
<a href="http://hdl.handle.net/11025/21260" target="_blank" >http://hdl.handle.net/11025/21260</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Příprava dat pro online adaptaci LM
Original language description
V úloze automatického rozpoznávání mluvené řeči (automatic speech recognition, ASR) je jednou z nejdůležitějších komponent celého systému tzv. jazykový model (language model, LM), který definuje slovní zásobu rozpoznávače a matematicky popisuje vztahy mezi jednotlivými slovy. Pokud je v rozpoznávané promluvě řečeno slovo, které ve slovní zásobě ASR chybí, rozpozná se nějaké akusticky podobné slovo (či více slov), které rozpoznávač zná, ale jehož význam je zpravidla zcela jiný a rozpoznaný text pak nedává smysl. Slova, která nejsou správně rozpoznána, protože chybí ve slovní zásobě ASR, se nazývají OOV (out-of-vocabulary). Nízký počet OOV slov je proto přirozený a důležitý požadavek na kvalitní ASR. V praxi ale rozpoznávaná promluva není předem známá, často dokonce není známé ani téma promluvy či její doména (obor). Příkladem takové úlohy, ve které se téma promluvy rychle mění a nelze jej předvídat, je rozpoznávání živě vysílaného televizního zpravodajství, jehož výstup (automaticky generované titulky k aktuální promluvě) může sloužit např. neslyšícím divákům. Každá doména má svá specifická jazyková pravidla a specifickou slovní zásobou. Hovoří-li někdo o událostech v poslanecké sněmovně, je zřejmé, že bude používat zcela jinou slovní zásobu, než moderátor popisující konflikt na Ukrajině. Aby se mohl rozpoznávač přizpůsobit aktuálnímu obsahu promluvy, provádí se tzv. adaptace LM na určitou doménu. Doména se odhaduje z dosud rozpoznaného textu a adaptace je zpravidla realizována mícháním několika jazykových modelů, obvykle obecného LM (popisuje pravidla běžného jazyka) a tématického LM (popisuje specifická pravidla jazyka domény a obsahuje i příslušnou slovní zásobu). Postup pro získání takových tématických jazykových modelů, konkrétně modelů, které se snaží co nejlépe pokrýt slovní zásobu náležící k určité světové geografické oblasti, popisuje tato práce.
Czech name
Příprava dat pro online adaptaci LM
Czech description
V úloze automatického rozpoznávání mluvené řeči (automatic speech recognition, ASR) je jednou z nejdůležitějších komponent celého systému tzv. jazykový model (language model, LM), který definuje slovní zásobu rozpoznávače a matematicky popisuje vztahy mezi jednotlivými slovy. Pokud je v rozpoznávané promluvě řečeno slovo, které ve slovní zásobě ASR chybí, rozpozná se nějaké akusticky podobné slovo (či více slov), které rozpoznávač zná, ale jehož význam je zpravidla zcela jiný a rozpoznaný text pak nedává smysl. Slova, která nejsou správně rozpoznána, protože chybí ve slovní zásobě ASR, se nazývají OOV (out-of-vocabulary). Nízký počet OOV slov je proto přirozený a důležitý požadavek na kvalitní ASR. V praxi ale rozpoznávaná promluva není předem známá, často dokonce není známé ani téma promluvy či její doména (obor). Příkladem takové úlohy, ve které se téma promluvy rychle mění a nelze jej předvídat, je rozpoznávání živě vysílaného televizního zpravodajství, jehož výstup (automaticky generované titulky k aktuální promluvě) může sloužit např. neslyšícím divákům. Každá doména má svá specifická jazyková pravidla a specifickou slovní zásobou. Hovoří-li někdo o událostech v poslanecké sněmovně, je zřejmé, že bude používat zcela jinou slovní zásobu, než moderátor popisující konflikt na Ukrajině. Aby se mohl rozpoznávač přizpůsobit aktuálnímu obsahu promluvy, provádí se tzv. adaptace LM na určitou doménu. Doména se odhaduje z dosud rozpoznaného textu a adaptace je zpravidla realizována mícháním několika jazykových modelů, obvykle obecného LM (popisuje pravidla běžného jazyka) a tématického LM (popisuje specifická pravidla jazyka domény a obsahuje i příslušnou slovní zásobu). Postup pro získání takových tématických jazykových modelů, konkrétně modelů, které se snaží co nejlépe pokrýt slovní zásobu náležící k určité světové geografické oblasti, popisuje tato práce.
Classification
Type
O - Miscellaneous
CEP classification
—
OECD FORD branch
20205 - Automation and control systems
Result continuities
Project
—
Continuities
S - Specificky vyzkum na vysokych skolach
Others
Publication year
2014
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů