Korpus InterCorp, verze 13ud
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F21%3A10436156" target="_blank" >RIV/00216208:11210/21:10436156 - isvavai.cz</a>
Výsledek na webu
<a href="https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud" target="_blank" >https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Korpus InterCorp, verze 13ud
Popis výsledku v původním jazyce
InterCorp verze 13ud obsahuje stejné texty jako InterCorp verze 13, obě verze se však podstatně liší v lingvistické anotaci. Ve verzi 13ud je z celkového počtu 41 jazyků (včetně češtiny) 36 anotovaných jednotně podle standardu Universal Dependencies (UD) nástrojem UDPipe (viz https://universaldependencies.org a https://ufal.mff.cuni.cz/udpipe). Jednotná lingvistická anotace se týká způsobu tokenizace, slovních druhů, morfologických kategorií, syntaktické struktury a syntaktických funkcí. Využití korpusu ve vyhledávači KonText bylo usnadněno přidáním atributů pro orientaci v syntaktické struktuře, rozšířením seznamu přímo dostupných atributů o často využívané kategorie, zakódováním tvarů složených ze dvou nebo tří syntaktických slov do podoby dělených tokenů a implementací pomocníka pro formulaci dotazu na slovní druhy a kategorie podle UD.
Název v anglickém jazyce
The InterCorp corpus, release 13ud
Popis výsledku anglicky
InterCorp release 13ud contains the same texts as InterCorp release 13. However, they differ significantly in linguistic annotation. In 13ud, out of the total number of 41 languages (including Czech), 36 are annotated uniformly according to the Universal Dependencies (UD) standard using the UDPipe tool (see https://universaldependencies.org and https://ufal.mff.cuni.cz/udpipe). The uniform linguistic annotation concerns the method of tokenization, word classes, morphological categories, syntactic structure and syntactic functions. The use of the corpus in the KonText search engine was facilitated by adding attributes for orientation in the syntactic structure, expanding the list of directly available attributes by frequently used categories, encoding forms composed of two or three syntactic words into split tokens and implementing a helper for specifying queries for word types and categories according to UD.
Klasifikace
Druh
O - Ostatní výsledky
CEP obor
—
OECD FORD obor
60203 - Linguistics
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2018137" target="_blank" >LM2018137: Český národní korpus</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů