Syntaktická proměna Českého akademického korpusu
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F11%3A10107809" target="_blank" >RIV/00216208:11320/11:10107809 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Syntaktická proměna Českého akademického korpusu
Popis výsledku v původním jazyce
Předkládaným příspěvkem bezprostředně navazujeme na stať Proměna Českého akademického korpusu, která byla publikována ve Slově a slovesnosti v roce 2006 (Hladká - Králík, 2006). Nyní popisujeme zkušenosti ze syntaktické proměny Českého akademického korpusu, při které byly původní syntaktické anotace ponechány stranou a texty byly nově anotovány dle koncepce Pražského závislostního korpusu. Proměna, neboli anotace, byla zahájena tři roky poté, co byla dokončena syntaktická anotace již zmíněného Pražskéhozávislostního korpusu - největšího anotovaného korpusu psané češtiny. Tento tříletý časový odstup je do jisté míry kuriózní; neznáme jiný jazyk, pro který by po anotování velkého objemu dat (více než jeden milion slov) proběhla anotace dalších dat, siceobjemu menšího, ale rovněž nezanedbatelného (statisíce slov). Syntaktickou anotací Českého akademického korpusu jsme vstoupili podruhé do stejné řeky. Doufáme, že zkušenost, kterou si odnášíme, bude přínosná pro všechny jazykovědce.
Název v anglickém jazyce
Syntactical transformation of the Czech Academic Corpus
Popis výsledku anglicky
The idea of the Czech Academic Corus (CAC) came to life in 1971 thanks to the Department of Mathematical Linguistics within the Institute of Czech Language. By the mid 1980s, a total of 540,000 words were morphologically and syntactically manually annotated. After the Prague Dependency Treebank (PDT) - the largest treebank of Czech written texts - has been built, a conversion from the CAC to the PDT format has started. The main goal was to make the CAC and the PDT compatible thus to enable integration of the CAC into the PDT. The second version of the CAC presents such a complete conversion of the internal format and the annotation schemes. Conversion of syntactic annotation has started three years after the syntactic annotation of PDT has been finished. Such a situation is exceptional since, at least to our knowledge, there is no other language for the annotation of indispensable amount of data is being done in two subsequent annotation projects. This article summarizes the experience
Klasifikace
Druh
J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)
CEP obor
AI - Jazykověda
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>Z - Vyzkumny zamer (s odkazem do CEZ)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2011
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Slovo a slovesnost
ISSN
0037-7031
e-ISSN
—
Svazek periodika
Neuveden
Číslo periodika v rámci svazku
4
Stát vydavatele periodika
CZ - Česká republika
Počet stran výsledku
19
Strana od-do
268-286
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—