Český korpus spontánní řeči s anotací strukturálních metadat
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F05%3A00000283" target="_blank" >RIV/49777513:23520/05:00000283 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/49777513:23520/05:00000284
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Czech spontaneous speech corpus with structural metadata
Popis výsledku v původním jazyce
This paper describes a Czech spontaneous speech corpus consisting of radio talk show recordings. As the first complete non-English MDE corpus, it has been annotated with structural metadata information beyond the words that is critical to both increasingtranscript readability and allowing application of downstream NLP methods. Metadata annotation involves partitioning verbatim transcripts into syntactic/semantic units (SUs) that function to express a complete idea; and identifying fillers and edit disfluencies. Annotation guidelines for English metadata developed by Linguistic Data Consortium were taken as the starting point, with changes applied to accommodate specific phenomena of Czech. In addition to the necessary language-dependent modifications,we further propose some language-independent modifications including limited prosodic labeling at SU boundaries.
Název v anglickém jazyce
Czech spontaneous speech corpus with structural metadata
Popis výsledku anglicky
This paper describes a Czech spontaneous speech corpus consisting of radio talk show recordings. As the first complete non-English MDE corpus, it has been annotated with structural metadata information beyond the words that is critical to both increasingtranscript readability and allowing application of downstream NLP methods. Metadata annotation involves partitioning verbatim transcripts into syntactic/semantic units (SUs) that function to express a complete idea; and identifying fillers and edit disfluencies. Annotation guidelines for English metadata developed by Linguistic Data Consortium were taken as the starting point, with changes applied to accommodate specific phenomena of Czech. In addition to the necessary language-dependent modifications,we further propose some language-independent modifications including limited prosodic labeling at SU boundaries.
Klasifikace
Druh
J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/LC536" target="_blank" >LC536: Centrum komputační lingvistiky</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2005
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Eurospeech
ISSN
1018-4074
e-ISSN
—
Svazek periodika
2005
Číslo periodika v rámci svazku
—
Stát vydavatele periodika
PT - Portugalská republika
Počet stran výsledku
4
Strana od-do
1165
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—