Příprava dat pro online adaptaci LM
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F14%3A43923802" target="_blank" >RIV/49777513:23520/14:43923802 - isvavai.cz</a>
Výsledek na webu
<a href="http://hdl.handle.net/11025/21260" target="_blank" >http://hdl.handle.net/11025/21260</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Příprava dat pro online adaptaci LM
Popis výsledku v původním jazyce
V úloze automatického rozpoznávání mluvené řeči (automatic speech recognition, ASR) je jednou z nejdůležitějších komponent celého systému tzv. jazykový model (language model, LM), který definuje slovní zásobu rozpoznávače a matematicky popisuje vztahy mezi jednotlivými slovy. Pokud je v rozpoznávané promluvě řečeno slovo, které ve slovní zásobě ASR chybí, rozpozná se nějaké akusticky podobné slovo (či více slov), které rozpoznávač zná, ale jehož význam je zpravidla zcela jiný a rozpoznaný text pak nedává smysl. Slova, která nejsou správně rozpoznána, protože chybí ve slovní zásobě ASR, se nazývají OOV (out-of-vocabulary). Nízký počet OOV slov je proto přirozený a důležitý požadavek na kvalitní ASR. V praxi ale rozpoznávaná promluva není předem známá, často dokonce není známé ani téma promluvy či její doména (obor). Příkladem takové úlohy, ve které se téma promluvy rychle mění a nelze jej předvídat, je rozpoznávání živě vysílaného televizního zpravodajství, jehož výstup (automaticky generované titulky k aktuální promluvě) může sloužit např. neslyšícím divákům. Každá doména má svá specifická jazyková pravidla a specifickou slovní zásobou. Hovoří-li někdo o událostech v poslanecké sněmovně, je zřejmé, že bude používat zcela jinou slovní zásobu, než moderátor popisující konflikt na Ukrajině. Aby se mohl rozpoznávač přizpůsobit aktuálnímu obsahu promluvy, provádí se tzv. adaptace LM na určitou doménu. Doména se odhaduje z dosud rozpoznaného textu a adaptace je zpravidla realizována mícháním několika jazykových modelů, obvykle obecného LM (popisuje pravidla běžného jazyka) a tématického LM (popisuje specifická pravidla jazyka domény a obsahuje i příslušnou slovní zásobu). Postup pro získání takových tématických jazykových modelů, konkrétně modelů, které se snaží co nejlépe pokrýt slovní zásobu náležící k určité světové geografické oblasti, popisuje tato práce.
Název v anglickém jazyce
Data preparation for online adaptation of LM
Popis výsledku anglicky
In the task of automatic speech recognition (ASR), one of the most important components of the entire system is the so-called language model (LM), which defines the vocabulary of the recognizer and mathematically describes the relationships between individual words. If a word is said in the recognized speech that is missing from the ASR vocabulary, some acoustically similar word (or more words) is recognized that the recognizer knows, but whose meaning is usually completely different and the recognized text then makes no sense. Words that are not recognized correctly because they are missing from the ASR vocabulary are called OOV (out-of-vocabulary). A low number of OOV words is therefore a natural and important requirement for quality ASR. In practice, however, the recognized speech is not known in advance, often even the topic of the speech or its domain (field) is not known. An example of such a task, in which the topic of the speech changes rapidly and cannot be predicted, is the recognition of live television news, the output of which (automatically generated subtitles for the current speech) can serve, for example, deaf viewers. Each domain has its own specific language rules and vocabulary. When someone talks about the events in the Chamber of Deputies, it is obvious that they will use a completely different vocabulary than the moderator describing the conflict in Ukraine. In order for the recognizer to adapt to the current speech content, the so-called LM adaptation to a certain domain is performed. The domain is estimated from the text recognized so far, and the adaptation is usually implemented by mixing several language models, usually a general LM (describes the rules of ordinary language) and a thematic LM (describes the specific rules of the domain language and also contains the relevant vocabulary). The procedure for obtaining such thematic language models, specifically models that try to cover the vocabulary belonging to a certain world geographical area as best as possible, is described in this work.
Klasifikace
Druh
O - Ostatní výsledky
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2014
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů