Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Depth-based Features in Audio-Visual Speech Recognition

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F16%3A00000469" target="_blank" >RIV/46747885:24220/16:00000469 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://dx.doi.org/10.1109/TSP.2016.7760884" target="_blank" >http://dx.doi.org/10.1109/TSP.2016.7760884</a>

  • DOI - Digital Object Identifier

    <a href="http://dx.doi.org/10.1109/TSP.2016.7760884" target="_blank" >10.1109/TSP.2016.7760884</a>

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Depth-based Features in Audio-Visual Speech Recognition

  • Popis výsledku v původním jazyce

    We study the impact of depth-based visual features in systems for visual and audio-visual speech recognition. Instead of reconstruction from multiple views, the depth maps are obtained by the Kinect sensor, which is better suited for real world applications. We extract several types of visual features from video and depth channels and evaluate their performance both individually and in cross-channel combination. In order to show the information complementarity between the video-based and the depth-based features, we examine the relative importance of each channel when combined via weighted multi-stream Hidden Markov Models. We also introduce novel parametrizations based on discrete cosine transform and histogram of oriented gradients. The contribution of all presented visual speech features is demonstrated in the task of audio-visual speech recognition under noisy conditions.

  • Název v anglickém jazyce

    Depth-based Features in Audio-Visual Speech Recognition

  • Popis výsledku anglicky

    We study the impact of depth-based visual features in systems for visual and audio-visual speech recognition. Instead of reconstruction from multiple views, the depth maps are obtained by the Kinect sensor, which is better suited for real world applications. We extract several types of visual features from video and depth channels and evaluate their performance both individually and in cross-channel combination. In order to show the information complementarity between the video-based and the depth-based features, we examine the relative importance of each channel when combined via weighted multi-stream Hidden Markov Models. We also introduce novel parametrizations based on discrete cosine transform and histogram of oriented gradients. The contribution of all presented visual speech features is demonstrated in the task of audio-visual speech recognition under noisy conditions.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    JC - Počítačový hardware a software

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

  • Návaznosti

    S - Specificky vyzkum na vysokych skolach

Ostatní

  • Rok uplatnění

    2016

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Proc. of the 39th International Conference on Telecommunications and Signal Processing (TSP 2016)

  • ISBN

    978-1-5090-1287-9

  • ISSN

    1805-5435

  • e-ISSN

  • Počet stran výsledku

    4

  • Strana od-do

    303-306

  • Název nakladatele

    Institute of Electrical and Electronics Engineers Inc.

  • Místo vydání

    Vídeň, Rakousko

  • Místo konání akce

    Vídeň, Rakousko

  • Datum konání akce

    1. 1. 2016

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku

    000390164000065