Korpus InterCorp, verze 9
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F16%3A10336499" target="_blank" >RIV/00216208:11210/16:10336499 - isvavai.cz</a>
Výsledek na webu
<a href="https://wiki.korpus.cz/doku.php/cnk:intercorp" target="_blank" >https://wiki.korpus.cz/doku.php/cnk:intercorp</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Korpus InterCorp, verze 9
Popis výsledku v původním jazyce
InterCorp má ve verzi 9 celkem 1460 mil. slov v cizích jazycích, z toho 232 mil. připadá na jádro a 1229 mil. na kolekce. Počet slov v českých textech je celkem 187 mil., z toho 97 mil. v jádře a 90 mil. v kolekcích. Novým jazykem se stala romština a nově jsou označkované a lemmatizované jazyky chorvatština, srbština, lotyština. Srbské texty zapsané cyrilicí byly konvertovány do latinky. Díky novému způsobu plánování textů se zlepšilo zastoupení jednotlivých jazyků. Také byla sjednocena jména autorů a překladatelů v rámci jednoho jazyka.
Název v anglickém jazyce
The InterCorp corpus, release 9
Popis výsledku anglicky
InterCorp in version 9 has 1,460 mil. words in foreign languages, including 232 mil. words in the core part and 1,229 mil. words in the collections. The counts for Czech texts are 187 mil. words total, including 97 mil. words in the core and 90 mil. in the collections. Romany was added as a new language. The newly tagged and lemmatized languages are Croatian, Serbian are Latvian. Serbian texts written in Cyrillic were converted into Latin script. Due to a new way of deciding about newly added texts the representation of individual languages was improved. The names of authors and translators within a language were unified.
Klasifikace
Druh
R - Software
CEP obor
AI - Jazykověda
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2015044" target="_blank" >LM2015044: Český národní korpus</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2016
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
InterCorp v9
Technické parametry
Soubor jazykových dat dostupný na http://korpus.cz
Ekonomické parametry
Korpus je volně přístupný a primárně nevytváří žádný zisk
IČO vlastníka výsledku
00216208
Název vlastníka
Univerzita Karlova v Praze