Vše
Vše

Co hledáte?

Vše
Projekty
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Visual Speech Segmentation and Speaker Recognition for Transcription of TV News

Popis výsledku

Klíčová slova

Visual speech segmentation

Identifikátory výsledku

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Visual Speech Segmentation and Speaker Recognition for Transcription of TV News

  • Popis výsledku v původním jazyce

    This paper is about a method for visual segmentation of TV news. The TV news shows are segmented according to the visual stream from the video TV recordings in this method. Human faces are found in the single visual segments with the help of the fast algorithm for face detection. The found faces are compared with the visual GMMs, that have been trained from the video picture of the single broadcasters (anchors) from the TV news. The single visual segments, where the faces of the broadcasters have been found and recognized, have been compared with the acoustic segments from the acoustic segmentation. The speaker adapted HMMs have been used for speech recognition of these acoustic segments. The recognition rate is better for the use of this speaker-adapted HMMs compared to the use of the speaker independent HMMs.

  • Název v anglickém jazyce

    Visual Speech Segmentation and Speaker Recognition for Transcription of TV News

  • Popis výsledku anglicky

    This paper is about a method for visual segmentation of TV news. The TV news shows are segmented according to the visual stream from the video TV recordings in this method. Human faces are found in the single visual segments with the help of the fast algorithm for face detection. The found faces are compared with the visual GMMs, that have been trained from the video picture of the single broadcasters (anchors) from the TV news. The single visual segments, where the faces of the broadcasters have been found and recognized, have been compared with the acoustic segments from the acoustic segmentation. The speaker adapted HMMs have been used for speech recognition of these acoustic segments. The recognition rate is better for the use of this speaker-adapted HMMs compared to the use of the speaker independent HMMs.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    JD - Využití počítačů, robotika a její aplikace

  • OECD FORD obor

Návaznosti výsledku

Ostatní

  • Rok uplatnění

    2006

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING

  • ISBN

    978-1-60423-449-7

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    4

  • Strana od-do

  • Název nakladatele

    ISCA-INST SPEECH COMMUNICATION ASSOC

  • Místo vydání

    Pittsburgh, USA

  • Místo konání akce

    Pittsburgh, USA

  • Datum konání akce

    1. 1. 2006

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku

Základní informace

Druh výsledku

D - Stať ve sborníku

D

CEP

JD - Využití počítačů, robotika a její aplikace

Rok uplatnění

2006