All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Automatic Segmentation of Speech into Sentence-like Units

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F08%3A00500610" target="_blank" >RIV/49777513:23520/08:00500610 - isvavai.cz</a>

  • Result on the web

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    angličtina

  • Original language name

    Automatic Segmentation of Speech into Sentence-like Units

  • Original language description

    This thesis deals with the problem of automatic segmentation of speech recognition output into sentence-like units. The work is focused on two languages - English and Czech. First, I describe creation of two Czech speech corpora with structural metadataannotation in two different domains: broadcast news and broadcast conversations. The main goal of this work is to develop automatic systems for dialog act segmentation of English multiparty meetings and sentence unit segmentation of the two new Czech corpora. I use and compare three modeling approaches - hidden Markov models, maximum entropy, and a boosting-based algorithm called BoosTexter. All of these approaches rely on two information sources - recognized words and prosody. In addition, I explore speaker adaptation for this task. The results indicate that superior performance is achieved when the three statistical models are combined via posterior probability interpolation.

  • Czech name

    Automatická segmentace mluvené řeči do větných jednotek

  • Czech description

    Tato disertační práce se zabývá problémem automatické segmentace těchto přepisů do větných jednotek. Zaměřuje se na dva jazyky - angličtinu a češtinu. V rámci práce byly vytvořeny dva české korpusy s anotací tzv. strukturálních metadat. Jeden z oblasti rozhlasových a televizních zpráv a diskusních pořadů. Hlavním cílem práce je vytvořit systémy pro automatickou segmentaci řeči do větných jednotek pro tři různé korpusy - anglický korpus pracovních schůzek a dva výše zmíněné české korpusy. V práci používám a srovnávám tři statistické modely - skrytý Markovův model, model maximální entropie a boostingový model BoosTexter. Všechny tři modely využívají dva základní zdroje informací - rozpoznaná slova a prozódii. Zkoumám také možnosti adaptace modelů na konkrétního řečníka. Výsledky ukazují, že největší přesnosti segmentace je dosaženo, když jsou všechny tři zkoumané statistické modely zkombinovány pomocí interpolace aposteriorních pravděpodobností.

Classification

  • Type

    O - Miscellaneous

  • CEP classification

    JD - Use of computers, robotics and its application

  • OECD FORD branch

Result continuities

  • Project

    Result was created during the realization of more than one project. More information in the Projects tab.

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

  • Publication year

    2008

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů