Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Visual Speech Segmentation and Speaker Recognition for Transcription of TV News

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F06%3A%230001343" target="_blank" >RIV/46747885:24220/06:#0001343 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Visual Speech Segmentation and Speaker Recognition for Transcription of TV News

  • Popis výsledku v původním jazyce

    This paper is about a method for visual segmentation of TV news. The TV news shows are segmented according to the visual stream from the video TV recordings in this method. Human faces are found in the single visual segments with the help of the fast algorithm for face detection. The found faces are compared with the visual GMMs, that have been trained from the video picture of the single broadcasters (anchors) from the TV news. The single visual segments, where the faces of the broadcasters have been found and recognized, have been compared with the acoustic segments from the acoustic segmentation. The speaker adapted HMMs have been used for speech recognition of these acoustic segments. The recognition rate is better for the use of this speaker-adapted HMMs compared to the use of the speaker independent HMMs.

  • Název v anglickém jazyce

    Visual Speech Segmentation and Speaker Recognition for Transcription of TV News

  • Popis výsledku anglicky

    This paper is about a method for visual segmentation of TV news. The TV news shows are segmented according to the visual stream from the video TV recordings in this method. Human faces are found in the single visual segments with the help of the fast algorithm for face detection. The found faces are compared with the visual GMMs, that have been trained from the video picture of the single broadcasters (anchors) from the TV news. The single visual segments, where the faces of the broadcasters have been found and recognized, have been compared with the acoustic segments from the acoustic segmentation. The speaker adapted HMMs have been used for speech recognition of these acoustic segments. The recognition rate is better for the use of this speaker-adapted HMMs compared to the use of the speaker independent HMMs.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    JD - Využití počítačů, robotika a její aplikace

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/GA102%2F05%2F0278" target="_blank" >GA102/05/0278: Nové směry ve výzkumu a využití hlasových technologií</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2006

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING

  • ISBN

    978-1-60423-449-7

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    4

  • Strana od-do

  • Název nakladatele

    ISCA-INST SPEECH COMMUNICATION ASSOC

  • Místo vydání

    Pittsburgh, USA

  • Místo konání akce

    Pittsburgh, USA

  • Datum konání akce

    1. 1. 2006

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku