The InterCorp parallel corpus with a uniform annotation for all languages
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F23%3A10474273" target="_blank" >RIV/00216208:11210/23:10474273 - isvavai.cz</a>
Výsledek na webu
<a href="https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=LQ7MouwpKo" target="_blank" >https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=LQ7MouwpKo</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.2478/jazcas-2023-0043" target="_blank" >10.2478/jazcas-2023-0043</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
The InterCorp parallel corpus with a uniform annotation for all languages
Popis výsledku v původním jazyce
Recently, the language-specific morphosyntactic annotation of InterCorp, a large multilingual parallel corpus, has been replaced by the language-uniform morphosyntactic and syntactic annotation following the guidelines of the Universal Dependencies project. Because the corpus is used predominantly by human users via a token-based concordancer, the CONLL-U format produced by the UDPipe parser has been extended by attributes such as lemma of the token's syntactic head or morphosyntactic categories of the content verb's auxiliary. We conclude that despite some theoretical and practical issues, the new annotation is a promising solution to the issue of mutually incompatible tagsets within a single corpus.
Název v anglickém jazyce
The InterCorp parallel corpus with a uniform annotation for all languages
Popis výsledku anglicky
Recently, the language-specific morphosyntactic annotation of InterCorp, a large multilingual parallel corpus, has been replaced by the language-uniform morphosyntactic and syntactic annotation following the guidelines of the Universal Dependencies project. Because the corpus is used predominantly by human users via a token-based concordancer, the CONLL-U format produced by the UDPipe parser has been extended by attributes such as lemma of the token's syntactic head or morphosyntactic categories of the content verb's auxiliary. We conclude that despite some theoretical and practical issues, the new annotation is a promising solution to the issue of mutually incompatible tagsets within a single corpus.
Klasifikace
Druh
J<sub>SC</sub> - Článek v periodiku v databázi SCOPUS
CEP obor
—
OECD FORD obor
60203 - Linguistics
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2023044" target="_blank" >LM2023044: Český národní korpus</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Jazykovedný Časopis
ISSN
0021-5597
e-ISSN
1338-4287
Svazek periodika
74
Číslo periodika v rámci svazku
1
Stát vydavatele periodika
SK - Slovenská republika
Počet stran výsledku
12
Strana od-do
254-265
Kód UT WoS článku
—
EID výsledku v databázi Scopus
2-s2.0-85181744697