Anotace strukturálních metadat v řečových korpusech: Srovnání rozhlasových zpráv a rozhlasových diskuzí
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F08%3A00500384" target="_blank" >RIV/49777513:23520/08:00500384 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Structural metadata annotation of speech corpora: Comparing broadcast news and broadcast conversations
Popis výsledku v původním jazyce
Structural metadata extraction (MDE) research aims to develop techniques for automatic conversion of raw speech recognition output to forms that are more useful to humans and to downstream automatic processes. It may be achieved by inserting boundaries of syntactic/semantic units to the flow of speech, labeling non-content words like filled pauses and discourse markers for optional removal, and identifying sections of disfluent speech. This paper compares two Czech MDE speech corpora, one in the domainof broadcast news and the other in the domain of broadcast conversations. A variety of statistics about fillers, edit disfluencies, and syntactic/semantic units are presented. In addition, it is reported that disfluent portions of speech show differencesin the distribution of parts of speech (POS) of their content in comparison with the general POS distribution.
Název v anglickém jazyce
Structural metadata annotation of speech corpora: Comparing broadcast news and broadcast conversations
Popis výsledku anglicky
Structural metadata extraction (MDE) research aims to develop techniques for automatic conversion of raw speech recognition output to forms that are more useful to humans and to downstream automatic processes. It may be achieved by inserting boundaries of syntactic/semantic units to the flow of speech, labeling non-content words like filled pauses and discourse markers for optional removal, and identifying sections of disfluent speech. This paper compares two Czech MDE speech corpora, one in the domainof broadcast news and the other in the domain of broadcast conversations. A variety of statistics about fillers, edit disfluencies, and syntactic/semantic units are presented. In addition, it is reported that disfluent portions of speech show differencesin the distribution of parts of speech (POS) of their content in comparison with the general POS distribution.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2008
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)
ISBN
2-9517408-4-0
ISSN
—
e-ISSN
—
Počet stran výsledku
6
Strana od-do
—
Název nakladatele
ELRA
Místo vydání
Paris
Místo konání akce
Marrakech
Datum konání akce
1. 6. 2008
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—