Korpus InterCorp, verze 13ud

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F21%3A10436156" target="_blank" >RIV/00216208:11210/21:10436156 - isvavai.cz</a>
Výsledek na webu
<a href="https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud" target="_blank" >https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud</a>
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
čeština
Název v původním jazyce
Korpus InterCorp, verze 13ud
Popis výsledku v původním jazyce
InterCorp verze 13ud obsahuje stejné texty jako InterCorp verze 13, obě verze se však podstatně liší v lingvistické anotaci. Ve verzi 13ud je z celkového počtu 41 jazyků (včetně češtiny) 36 anotovaných jednotně podle standardu Universal Dependencies (UD) nástrojem UDPipe (viz https://universaldependencies.org a https://ufal.mff.cuni.cz/udpipe). Jednotná lingvistická anotace se týká způsobu tokenizace, slovních druhů, morfologických kategorií, syntaktické struktury a syntaktických funkcí. Využití korpusu ve vyhledávači KonText bylo usnadněno přidáním atributů pro orientaci v syntaktické struktuře, rozšířením seznamu přímo dostupných atributů o často využívané kategorie, zakódováním tvarů složených ze dvou nebo tří syntaktických slov do podoby dělených tokenů a implementací pomocníka pro formulaci dotazu na slovní druhy a kategorie podle UD.
Název v anglickém jazyce
The InterCorp corpus, release 13ud
Popis výsledku anglicky
InterCorp release 13ud contains the same texts as InterCorp release 13. However, they differ significantly in linguistic annotation. In 13ud, out of the total number of 41 languages (including Czech), 36 are annotated uniformly according to the Universal Dependencies (UD) standard using the UDPipe tool (see https://universaldependencies.org and https://ufal.mff.cuni.cz/udpipe). The uniform linguistic annotation concerns the method of tokenization, word classes, morphological categories, syntactic structure and syntactic functions. The use of the corpus in the KonText search engine was facilitated by adding attributes for orientation in the syntactic structure, expanding the list of directly available attributes by frequently used categories, encoding forms composed of two or three syntactic words into split tokens and implementing a helper for specifying queries for word types and categories according to UD.

Klasifikace

Druh
O - Ostatní výsledky
CEP obor
—
OECD FORD obor
60203 - Linguistics

Návaznosti výsledku

Projekt
<a href="/cs/project/LM2018137" target="_blank" >LM2018137: Český národní korpus</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Podobné výsledky(10)

Korpus InterCorp, verze 16ud CoNLL 2017 Shared Task - Automatically Annotated Raw Texts and Word Embeddings The InterCorp parallel corpus with a uniform annotation for all languages

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Korpus InterCorp, verze 13ud

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Podobné výsledky(10)