The InterCorp corpus, release 13ud
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F21%3A10436156" target="_blank" >RIV/00216208:11210/21:10436156 - isvavai.cz</a>
Result on the web
<a href="https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud" target="_blank" >https://wiki.korpus.cz/doku.php/cnk:intercorp:verze13ud</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Korpus InterCorp, verze 13ud
Original language description
InterCorp verze 13ud obsahuje stejné texty jako InterCorp verze 13, obě verze se však podstatně liší v lingvistické anotaci. Ve verzi 13ud je z celkového počtu 41 jazyků (včetně češtiny) 36 anotovaných jednotně podle standardu Universal Dependencies (UD) nástrojem UDPipe (viz https://universaldependencies.org a https://ufal.mff.cuni.cz/udpipe). Jednotná lingvistická anotace se týká způsobu tokenizace, slovních druhů, morfologických kategorií, syntaktické struktury a syntaktických funkcí. Využití korpusu ve vyhledávači KonText bylo usnadněno přidáním atributů pro orientaci v syntaktické struktuře, rozšířením seznamu přímo dostupných atributů o často využívané kategorie, zakódováním tvarů složených ze dvou nebo tří syntaktických slov do podoby dělených tokenů a implementací pomocníka pro formulaci dotazu na slovní druhy a kategorie podle UD.
Czech name
Korpus InterCorp, verze 13ud
Czech description
InterCorp verze 13ud obsahuje stejné texty jako InterCorp verze 13, obě verze se však podstatně liší v lingvistické anotaci. Ve verzi 13ud je z celkového počtu 41 jazyků (včetně češtiny) 36 anotovaných jednotně podle standardu Universal Dependencies (UD) nástrojem UDPipe (viz https://universaldependencies.org a https://ufal.mff.cuni.cz/udpipe). Jednotná lingvistická anotace se týká způsobu tokenizace, slovních druhů, morfologických kategorií, syntaktické struktury a syntaktických funkcí. Využití korpusu ve vyhledávači KonText bylo usnadněno přidáním atributů pro orientaci v syntaktické struktuře, rozšířením seznamu přímo dostupných atributů o často využívané kategorie, zakódováním tvarů složených ze dvou nebo tří syntaktických slov do podoby dělených tokenů a implementací pomocníka pro formulaci dotazu na slovní druhy a kategorie podle UD.
Classification
Type
O - Miscellaneous
CEP classification
—
OECD FORD branch
60203 - Linguistics
Result continuities
Project
<a href="/en/project/LM2018137" target="_blank" >LM2018137: Czech National Corpus</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2021
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů