Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Audio-Visual Speech Recognition in Noisy Audio Environments

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F13%3A%230002802" target="_blank" >RIV/46747885:24220/13:#0002802 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://dx.doi.org/10.1109/TSP.2013.6613979" target="_blank" >http://dx.doi.org/10.1109/TSP.2013.6613979</a>

  • DOI - Digital Object Identifier

    <a href="http://dx.doi.org/10.1109/TSP.2013.6613979" target="_blank" >10.1109/TSP.2013.6613979</a>

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Audio-Visual Speech Recognition in Noisy Audio Environments

  • Popis výsledku v původním jazyce

    It is a well-known fact that the visual part of speech can improve the resulting recognition rate mainly in noisy conditions. Main goal of this work is to find a set of visual features which would be possible to use in our audio-visual speech recognitionsystems. Discrete Cosine Transform (DCT) and Active Appearance Model (AAM) based visual features are extracted from visual speech signals, enhanced by a simplified variant of Hierarchical Linear Discriminant Analysis (HiLDA) and normalized across speakers. The visual features are then combined with standard MFCC audio features by the middle fusion method. The results from audio-visual speech recognition are compared with the results from experiments where the log-spectra minimum mean square error and multiband spectral subtraction methods for reducing additive noise in the audio signal are used.

  • Název v anglickém jazyce

    Audio-Visual Speech Recognition in Noisy Audio Environments

  • Popis výsledku anglicky

    It is a well-known fact that the visual part of speech can improve the resulting recognition rate mainly in noisy conditions. Main goal of this work is to find a set of visual features which would be possible to use in our audio-visual speech recognitionsystems. Discrete Cosine Transform (DCT) and Active Appearance Model (AAM) based visual features are extracted from visual speech signals, enhanced by a simplified variant of Hierarchical Linear Discriminant Analysis (HiLDA) and normalized across speakers. The visual features are then combined with standard MFCC audio features by the middle fusion method. The results from audio-visual speech recognition are compared with the results from experiments where the log-spectra minimum mean square error and multiband spectral subtraction methods for reducing additive noise in the audio signal are used.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    JC - Počítačový hardware a software

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

  • Návaznosti

    S - Specificky vyzkum na vysokych skolach

Ostatní

  • Rok uplatnění

    2013

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Proc. of 36th International Conference on Telecommunications and Signal Processing (TSP 2013)

  • ISBN

    9781479904044

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    4

  • Strana od-do

    484-487

  • Název nakladatele

  • Místo vydání

  • Místo konání akce

    Itálie

  • Datum konání akce

    1. 1. 2013

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku