On the art of taming and exploiting parallel tags in a multilingual corpus
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F12%3A10132260" target="_blank" >RIV/00216208:11210/12:10132260 - isvavai.cz</a>
Výsledek na webu
<a href="http://utkl.ff.cuni.cz/~rosen/public/2010_unitags_slavicorp.pdf" target="_blank" >http://utkl.ff.cuni.cz/~rosen/public/2010_unitags_slavicorp.pdf</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
On the art of taming and exploiting parallel tags in a multilingual corpus
Popis výsledku v původním jazyce
Multilingual parallel corpora can be annotated with monolingual tools, such as morphosyntactic taggers. However, even taggers for typologically similar languages often use incompatible tagsets, which results in conceptual and formal variety of tags within a single corpus. Retraining taggers on data annotated with a common tagset is not a realistic option. Differences between tagsets are often rooted in different linguistic perspectives rather than in real distinctions between the languages, which meansgood chances to find a common ground. Moreover, a different perspective may provide additional information missing in one tagset but present in another. Our first goal is to delegate the task of dealing with multiple tagsets to an abstract interlingual representation of linguistic categories. Ideally, each tag in every language-specific tagset used in the corpus is linked to a position in a tangled hierarchy of concepts. To accommodate the different perspectives, the hierarchy takes thre
Název v anglickém jazyce
On the art of taming and exploiting parallel tags in a multilingual corpus
Popis výsledku anglicky
Multilingual parallel corpora can be annotated with monolingual tools, such as morphosyntactic taggers. However, even taggers for typologically similar languages often use incompatible tagsets, which results in conceptual and formal variety of tags within a single corpus. Retraining taggers on data annotated with a common tagset is not a realistic option. Differences between tagsets are often rooted in different linguistic perspectives rather than in real distinctions between the languages, which meansgood chances to find a common ground. Moreover, a different perspective may provide additional information missing in one tagset but present in another. Our first goal is to delegate the task of dealing with multiple tagsets to an abstract interlingual representation of linguistic categories. Ideally, each tag in every language-specific tagset used in the corpus is linked to a position in a tangled hierarchy of concepts. To accommodate the different perspectives, the hierarchy takes thre
Klasifikace
Druh
J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)
CEP obor
AI - Jazykověda
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2012
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Prace Filologiczne
ISSN
0138-0567
e-ISSN
—
Svazek periodika
63
Číslo periodika v rámci svazku
—
Stát vydavatele periodika
PL - Polská republika
Počet stran výsledku
16
Strana od-do
241-256
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—