Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Multimodal Name Recognition in Live TV Subtitling

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F18%3A43952588" target="_blank" >RIV/49777513:23520/18:43952588 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://www.isca-speech.org/archive/Interspeech_2018/abstracts/1748.html" target="_blank" >https://www.isca-speech.org/archive/Interspeech_2018/abstracts/1748.html</a>

  • DOI - Digital Object Identifier

    <a href="http://dx.doi.org/10.21437/Interspeech.2018-1748" target="_blank" >10.21437/Interspeech.2018-1748</a>

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Multimodal Name Recognition in Live TV Subtitling

  • Popis výsledku v původním jazyce

    In this paper, we present a method of combining a visual text reader with a system of automatic speech recognition to suppress errors when encountering out-of-vocabulary words – specifically names. The visual text reader outputs detected words that are mapped into a large list of names via the Levenshtein distance. The detected names are inserted into the class-based language model on the fly which improves recognition results. To demonstrate the effect on the real speech recognition task we use data from sports TV broadcasting where a lot of names are present in both the audio and video streams. We superseded manual vocabulary editing in live TV subtitling through re-speaking by an automated online process. Further, we show that automatically adding the names to the recognition vocabulary online and with forgetting lowers the WER relatively by 39 % in comparison with the case when names of all sportsmen are added to the vocabulary beforehand and by 15 % when only the relevant names are added beforehand.

  • Název v anglickém jazyce

    Multimodal Name Recognition in Live TV Subtitling

  • Popis výsledku anglicky

    In this paper, we present a method of combining a visual text reader with a system of automatic speech recognition to suppress errors when encountering out-of-vocabulary words – specifically names. The visual text reader outputs detected words that are mapped into a large list of names via the Levenshtein distance. The detected names are inserted into the class-based language model on the fly which improves recognition results. To demonstrate the effect on the real speech recognition task we use data from sports TV broadcasting where a lot of names are present in both the audio and video streams. We superseded manual vocabulary editing in live TV subtitling through re-speaking by an automated online process. Further, we show that automatically adding the names to the recognition vocabulary online and with forgetting lowers the WER relatively by 39 % in comparison with the case when names of all sportsmen are added to the vocabulary beforehand and by 15 % when only the relevant names are added beforehand.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

  • OECD FORD obor

    20205 - Automation and control systems

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/GBP103%2F12%2FG084" target="_blank" >GBP103/12/G084: Centrum pro multi-modální interpretaci dat velkého rozsahu</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2018

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Proceedings of the 19th Annual Conference of the International Speech Communication Association (Interspeech 2018)

  • ISBN

    978-1-5108-7221-9

  • ISSN

    2308-457X

  • e-ISSN

    neuvedeno

  • Počet stran výsledku

    4

  • Strana od-do

    3529-3532

  • Název nakladatele

    Curran Associates, Inc.

  • Místo vydání

    Red Hook, NY

  • Místo konání akce

    Hyderabad, Indie

  • Datum konání akce

    2. 9. 2018

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku