Korpus InterCorp, verze 13
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F20%3A10419628" target="_blank" >RIV/00216208:11210/20:10419628 - isvavai.cz</a>
Výsledek na webu
<a href="https://wiki.korpus.cz/doku.php/cnk:intercorp" target="_blank" >https://wiki.korpus.cz/doku.php/cnk:intercorp</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Korpus InterCorp, verze 13
Popis výsledku v původním jazyce
Nová verze rozsáhlého paralelního korpusu obsahujícího překlady mezi celkem 41 jazyky (včetně češtiny). V porovnání s verzí 12 se počet slov v cizojazyčných textech zvýšil na 1 550 mil., z toho 327 mil. v beletristickém jádru a 1 223 mil. ve volně dostupných kolekcích. Počet slov v českých textech činí celkem 203 mil., z toho 113 mil. jádro a 90 mil. kolekce. Nově přibyly čínské texty v beletristické části a slovinština je tagována novým taggerem ReLDI.
Název v anglickém jazyce
The InterCorp corpus, release 13
Popis výsledku anglicky
A new version of a large parallel corpus containing translations between a total of 41 languages (including Czech). Compared to version 12, the number of words in foreign texts increased to 1,550 million, including 327 million in the fiction core and 1,223 million in freely available collections. The total number of words in Czech texts is 203 million, including 113 million in the core and 90 million in the collections. Chinese texts were added to the core which contains fiction. Slovenian is newly tagged by ReLDI tagger.
Klasifikace
Druh
O - Ostatní výsledky
CEP obor
—
OECD FORD obor
60203 - Linguistics
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2018137" target="_blank" >LM2018137: Český národní korpus</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2020
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů