All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Data preparation for online adaptation of LM

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F14%3A43923802" target="_blank" >RIV/49777513:23520/14:43923802 - isvavai.cz</a>

  • Result on the web

    <a href="http://hdl.handle.net/11025/21260" target="_blank" >http://hdl.handle.net/11025/21260</a>

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    Příprava dat pro online adaptaci LM

  • Original language description

    V úloze automatického rozpoznávání mluvené řeči (automatic speech recognition, ASR) je jednou z nejdůležitějších komponent celého systému tzv. jazykový model (language model, LM), který definuje slovní zásobu rozpoznávače a matematicky popisuje vztahy mezi jednotlivými slovy. Pokud je v rozpoznávané promluvě řečeno slovo, které ve slovní zásobě ASR chybí, rozpozná se nějaké akusticky podobné slovo (či více slov), které rozpoznávač zná, ale jehož význam je zpravidla zcela jiný a rozpoznaný text pak nedává smysl. Slova, která nejsou správně rozpoznána, protože chybí ve slovní zásobě ASR, se nazývají OOV (out-of-vocabulary). Nízký počet OOV slov je proto přirozený a důležitý požadavek na kvalitní ASR. V praxi ale rozpoznávaná promluva není předem známá, často dokonce není známé ani téma promluvy či její doména (obor). Příkladem takové úlohy, ve které se téma promluvy rychle mění a nelze jej předvídat, je rozpoznávání živě vysílaného televizního zpravodajství, jehož výstup (automaticky generované titulky k aktuální promluvě) může sloužit např. neslyšícím divákům. Každá doména má svá specifická jazyková pravidla a specifickou slovní zásobou. Hovoří-li někdo o událostech v poslanecké sněmovně, je zřejmé, že bude používat zcela jinou slovní zásobu, než moderátor popisující konflikt na Ukrajině. Aby se mohl rozpoznávač přizpůsobit aktuálnímu obsahu promluvy, provádí se tzv. adaptace LM na určitou doménu. Doména se odhaduje z dosud rozpoznaného textu a adaptace je zpravidla realizována mícháním několika jazykových modelů, obvykle obecného LM (popisuje pravidla běžného jazyka) a tématického LM (popisuje specifická pravidla jazyka domény a obsahuje i příslušnou slovní zásobu). Postup pro získání takových tématických jazykových modelů, konkrétně modelů, které se snaží co nejlépe pokrýt slovní zásobu náležící k určité světové geografické oblasti, popisuje tato práce.

  • Czech name

    Příprava dat pro online adaptaci LM

  • Czech description

    V úloze automatického rozpoznávání mluvené řeči (automatic speech recognition, ASR) je jednou z nejdůležitějších komponent celého systému tzv. jazykový model (language model, LM), který definuje slovní zásobu rozpoznávače a matematicky popisuje vztahy mezi jednotlivými slovy. Pokud je v rozpoznávané promluvě řečeno slovo, které ve slovní zásobě ASR chybí, rozpozná se nějaké akusticky podobné slovo (či více slov), které rozpoznávač zná, ale jehož význam je zpravidla zcela jiný a rozpoznaný text pak nedává smysl. Slova, která nejsou správně rozpoznána, protože chybí ve slovní zásobě ASR, se nazývají OOV (out-of-vocabulary). Nízký počet OOV slov je proto přirozený a důležitý požadavek na kvalitní ASR. V praxi ale rozpoznávaná promluva není předem známá, často dokonce není známé ani téma promluvy či její doména (obor). Příkladem takové úlohy, ve které se téma promluvy rychle mění a nelze jej předvídat, je rozpoznávání živě vysílaného televizního zpravodajství, jehož výstup (automaticky generované titulky k aktuální promluvě) může sloužit např. neslyšícím divákům. Každá doména má svá specifická jazyková pravidla a specifickou slovní zásobou. Hovoří-li někdo o událostech v poslanecké sněmovně, je zřejmé, že bude používat zcela jinou slovní zásobu, než moderátor popisující konflikt na Ukrajině. Aby se mohl rozpoznávač přizpůsobit aktuálnímu obsahu promluvy, provádí se tzv. adaptace LM na určitou doménu. Doména se odhaduje z dosud rozpoznaného textu a adaptace je zpravidla realizována mícháním několika jazykových modelů, obvykle obecného LM (popisuje pravidla běžného jazyka) a tématického LM (popisuje specifická pravidla jazyka domény a obsahuje i příslušnou slovní zásobu). Postup pro získání takových tématických jazykových modelů, konkrétně modelů, které se snaží co nejlépe pokrýt slovní zásobu náležící k určité světové geografické oblasti, popisuje tato práce.

Classification

  • Type

    O - Miscellaneous

  • CEP classification

  • OECD FORD branch

    20205 - Automation and control systems

Result continuities

  • Project

  • Continuities

    S - Specificky vyzkum na vysokych skolach

Others

  • Publication year

    2014

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů