The corpus ORAL: construction, lemmatization and morphological tagging
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F17%3A10362531" target="_blank" >RIV/00216208:11210/17:10362531 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Korpus ORAL: sestavení, lemmatizace a morfologické značkování
Original language description
Příspěvek poskytuje přehled o struktuře a obsahu brzy dostupného mluveného korpusu ORAL, který spojuje dříve publikované korpusy (ORAL2006, ORAL2008 a ORAL2013) s nově přepsaným materiálem do jediného snadno přístupného a bohatěji anotovaného zdroje o přibližné velikosti 6 milionů slov. Nahrávky a příslušné přepisy pochází z let 2002 až 2011; většina z nich zachycuje interakce vzájemně dobře obeznámených řečníků v neformálních situacích a přirozeném prostředí. Korpus je doplněn malou částí formálních dat, většinou veřejných rozhovorů. Je taggován a lemmatizován. Doufáme, že dostupnost takového zdroje vyvolá další diskusi o morfologickém a syntaktickém rozboru mluveného jazyka, což by mohlo v budoucnu vést k radikálnějšímu značkování slovních druhů, které doposud vychází z jazykové analýzy psaného jazyka.
Czech name
Korpus ORAL: sestavení, lemmatizace a morfologické značkování
Czech description
Příspěvek poskytuje přehled o struktuře a obsahu brzy dostupného mluveného korpusu ORAL, který spojuje dříve publikované korpusy (ORAL2006, ORAL2008 a ORAL2013) s nově přepsaným materiálem do jediného snadno přístupného a bohatěji anotovaného zdroje o přibližné velikosti 6 milionů slov. Nahrávky a příslušné přepisy pochází z let 2002 až 2011; většina z nich zachycuje interakce vzájemně dobře obeznámených řečníků v neformálních situacích a přirozeném prostředí. Korpus je doplněn malou částí formálních dat, většinou veřejných rozhovorů. Je taggován a lemmatizován. Doufáme, že dostupnost takového zdroje vyvolá další diskusi o morfologickém a syntaktickém rozboru mluveného jazyka, což by mohlo v budoucnu vést k radikálnějšímu značkování slovních druhů, které doposud vychází z jazykové analýzy psaného jazyka.
Classification
Type
J<sub>ost</sub> - Miscellaneous article in a specialist periodical
CEP classification
—
OECD FORD branch
60203 - Linguistics
Result continuities
Project
<a href="/en/project/LM2015044" target="_blank" >LM2015044: Czech National Corpus</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2017
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Name of the periodical
Korpus - gramatika - axiologie
ISSN
1804-137X
e-ISSN
—
Volume of the periodical
2017
Issue of the periodical within the volume
15
Country of publishing house
CZ - CZECH REPUBLIC
Number of pages
21
Pages from-to
47-67
UT code for WoS article
—
EID of the result in the Scopus database
—