Korpus ORAL: sestavení, lemmatizace a morfologické značkování
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F17%3A10362531" target="_blank" >RIV/00216208:11210/17:10362531 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Korpus ORAL: sestavení, lemmatizace a morfologické značkování
Popis výsledku v původním jazyce
Příspěvek poskytuje přehled o struktuře a obsahu brzy dostupného mluveného korpusu ORAL, který spojuje dříve publikované korpusy (ORAL2006, ORAL2008 a ORAL2013) s nově přepsaným materiálem do jediného snadno přístupného a bohatěji anotovaného zdroje o přibližné velikosti 6 milionů slov. Nahrávky a příslušné přepisy pochází z let 2002 až 2011; většina z nich zachycuje interakce vzájemně dobře obeznámených řečníků v neformálních situacích a přirozeném prostředí. Korpus je doplněn malou částí formálních dat, většinou veřejných rozhovorů. Je taggován a lemmatizován. Doufáme, že dostupnost takového zdroje vyvolá další diskusi o morfologickém a syntaktickém rozboru mluveného jazyka, což by mohlo v budoucnu vést k radikálnějšímu značkování slovních druhů, které doposud vychází z jazykové analýzy psaného jazyka.
Název v anglickém jazyce
The corpus ORAL: construction, lemmatization and morphological tagging
Popis výsledku anglicky
The goal of this paper is to provide an overview of the structure and contents of the soon-to-be available ORAL corpus, which combines previously published corpora (ORAL2006, ORAL2008 and ORAL2013) with newly transcribed material into a single conveniently accessible and more richly annotated resource, about 6 million running words in length. The recordings and corresponding transcripts span a decade between 2002 and 2011; most of them capture interactions of mutually well-acquainted speakers, in informal situations and natural settings. The corpus is complemented by a marginal portion of more formal data, mostly public talks. It is tagged and lemmatized, and an effort was made to adapt existing tools (targeted at written language) to yield better results on spoken data. We hope the availability of such a resource will spawn further discussions on the morphological and syntactic analysis of spoken language, perhaps resulting in more radical departures in the future from the part-of-speech classification inherited from the linguistic analysis of written language.
Klasifikace
Druh
J<sub>ost</sub> - Ostatní články v recenzovaných periodicích
CEP obor
—
OECD FORD obor
60203 - Linguistics
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2015044" target="_blank" >LM2015044: Český národní korpus</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2017
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Korpus - gramatika - axiologie
ISSN
1804-137X
e-ISSN
—
Svazek periodika
2017
Číslo periodika v rámci svazku
15
Stát vydavatele periodika
CZ - Česká republika
Počet stran výsledku
21
Strana od-do
47-67
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—