Automatic Segmentation of Speech into Sentence-like Units
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F08%3A00500610" target="_blank" >RIV/49777513:23520/08:00500610 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
angličtina
Original language name
Automatic Segmentation of Speech into Sentence-like Units
Original language description
This thesis deals with the problem of automatic segmentation of speech recognition output into sentence-like units. The work is focused on two languages - English and Czech. First, I describe creation of two Czech speech corpora with structural metadataannotation in two different domains: broadcast news and broadcast conversations. The main goal of this work is to develop automatic systems for dialog act segmentation of English multiparty meetings and sentence unit segmentation of the two new Czech corpora. I use and compare three modeling approaches - hidden Markov models, maximum entropy, and a boosting-based algorithm called BoosTexter. All of these approaches rely on two information sources - recognized words and prosody. In addition, I explore speaker adaptation for this task. The results indicate that superior performance is achieved when the three statistical models are combined via posterior probability interpolation.
Czech name
Automatická segmentace mluvené řeči do větných jednotek
Czech description
Tato disertační práce se zabývá problémem automatické segmentace těchto přepisů do větných jednotek. Zaměřuje se na dva jazyky - angličtinu a češtinu. V rámci práce byly vytvořeny dva české korpusy s anotací tzv. strukturálních metadat. Jeden z oblasti rozhlasových a televizních zpráv a diskusních pořadů. Hlavním cílem práce je vytvořit systémy pro automatickou segmentaci řeči do větných jednotek pro tři různé korpusy - anglický korpus pracovních schůzek a dva výše zmíněné české korpusy. V práci používám a srovnávám tři statistické modely - skrytý Markovův model, model maximální entropie a boostingový model BoosTexter. Všechny tři modely využívají dva základní zdroje informací - rozpoznaná slova a prozódii. Zkoumám také možnosti adaptace modelů na konkrétního řečníka. Výsledky ukazují, že největší přesnosti segmentace je dosaženo, když jsou všechny tři zkoumané statistické modely zkombinovány pomocí interpolace aposteriorních pravděpodobností.
Classification
Type
O - Miscellaneous
CEP classification
JD - Use of computers, robotics and its application
OECD FORD branch
—
Result continuities
Project
Result was created during the realization of more than one project. More information in the Projects tab.
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2008
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů