Vše
Vše

Co hledáte?

Vše
Projekty
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Viseme-Dependent Weight Optimization for CHMM-Based Audio-Visual Speech Recognition

Identifikátory výsledku

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Viseme-Dependent Weight Optimization for CHMM-Based Audio-Visual Speech Recognition

  • Popis výsledku v původním jazyce

    The aim of the present study is to investigate some key challenges of the audio-visual speech recognition technology, such as asynchrony modeling of multimodal speech, estimation of auditory and visual speech significance, as well as stream weight optimization. Our research shows that the usage of viseme-dependent stream weights improves the performance of state asynchronous CHMM-based speech recognizer. In addition, for a state synchronous MSHMM-based recognizer, fewer errors can be achieved using stationary time delays of visual data with respect to the corresponding audio signal. Evaluation experiments showed that individual audio-visual stream weights for each viseme-phoneme pair lead to relative reduction of WER by 20%.

  • Název v anglickém jazyce

    Viseme-Dependent Weight Optimization for CHMM-Based Audio-Visual Speech Recognition

  • Popis výsledku anglicky

    The aim of the present study is to investigate some key challenges of the audio-visual speech recognition technology, such as asynchrony modeling of multimodal speech, estimation of auditory and visual speech significance, as well as stream weight optimization. Our research shows that the usage of viseme-dependent stream weights improves the performance of state asynchronous CHMM-based speech recognizer. In addition, for a state synchronous MSHMM-based recognizer, fewer errors can be achieved using stationary time delays of visual data with respect to the corresponding audio signal. Evaluation experiments showed that individual audio-visual stream weights for each viseme-phoneme pair lead to relative reduction of WER by 20%.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    JD - Využití počítačů, robotika a její aplikace

  • OECD FORD obor

Návaznosti výsledku

Ostatní

  • Rok uplatnění

    2010

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Interspeech 2010

  • ISBN

    978-1-61782-123-3

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    4

  • Strana od-do

  • Název nakladatele

    Curran Associates

  • Místo vydání

    Red Hook

  • Místo konání akce

    Makuhari, Chiba, Japan

  • Datum konání akce

    1. 1. 2010

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku

Základní informace

Druh výsledku

D - Stať ve sborníku

D

CEP

JD - Využití počítačů, robotika a její aplikace

Rok uplatnění

2010