Český korpus spontánní řeči s anotací strukturálních metadat

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F05%3A00000283" target="_blank" >RIV/49777513:23520/05:00000283 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/49777513:23520/05:00000284
Výsledek na webu
—
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
angličtina
Název v původním jazyce
Czech spontaneous speech corpus with structural metadata
Popis výsledku v původním jazyce
This paper describes a Czech spontaneous speech corpus consisting of radio talk show recordings. As the first complete non-English MDE corpus, it has been annotated with structural metadata information beyond the words that is critical to both increasingtranscript readability and allowing application of downstream NLP methods. Metadata annotation involves partitioning verbatim transcripts into syntactic/semantic units (SUs) that function to express a complete idea; and identifying fillers and edit disfluencies. Annotation guidelines for English metadata developed by Linguistic Data Consortium were taken as the starting point, with changes applied to accommodate specific phenomena of Czech. In addition to the necessary language-dependent modifications,we further propose some language-independent modifications including limited prosodic labeling at SU boundaries.
Název v anglickém jazyce
Czech spontaneous speech corpus with structural metadata
Popis výsledku anglicky
This paper describes a Czech spontaneous speech corpus consisting of radio talk show recordings. As the first complete non-English MDE corpus, it has been annotated with structural metadata information beyond the words that is critical to both increasingtranscript readability and allowing application of downstream NLP methods. Metadata annotation involves partitioning verbatim transcripts into syntactic/semantic units (SUs) that function to express a complete idea; and identifying fillers and edit disfluencies. Annotation guidelines for English metadata developed by Linguistic Data Consortium were taken as the starting point, with changes applied to accommodate specific phenomena of Czech. In addition to the necessary language-dependent modifications,we further propose some language-independent modifications including limited prosodic labeling at SU boundaries.

Klasifikace

Druh
J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—

Návaznosti výsledku

Projekt
<a href="/cs/project/LC536" target="_blank" >LC536: Centrum komputační lingvistiky</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>Z - Vyzkumny zamer (s odkazem do CEZ)

Ostatní

Rok uplatnění
2005
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Název periodika
Eurospeech
ISSN
1018-4074
e-ISSN
—
Svazek periodika
2005
Číslo periodika v rámci svazku
—
Stát vydavatele periodika
PT - Portugalská republika
Počet stran výsledku
4
Strana od-do
1165
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—

Podobné výsledky(10)

Anotace strukturálních metadat: za hranice angličtiny CzEng 1.6: Enlarged Czech-English Parallel Corpus with Processing Tools Dockered Towards Multilingual Event Extraction Evaluation: A Case Study for the Czech Language

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Český korpus spontánní řeči s anotací strukturálních metadat

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)