Korpus InterCorp, verze 10

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F17%3A10366780" target="_blank" >RIV/00216208:11210/17:10366780 - isvavai.cz</a>
Výsledek na webu
<a href="https://wiki.korpus.cz/doku.php/cnk:intercorp" target="_blank" >https://wiki.korpus.cz/doku.php/cnk:intercorp</a>
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
čeština
Název v původním jazyce
Korpus InterCorp, verze 10
Popis výsledku v původním jazyce
- počet slov v cizojazyčných textech celkem 1 483 mil., z toho 258 mil. jádro a 1 225 mil. kolekce - počet slov v českých textech celkem 192 mil., z toho 102 mil. jádro a 89 mil. kolekce - nová kolekce: překlady Bible - Nového i Starého zákona, v 18 jazycích (včetně češtiny) - aktualizace textů ze zdroje Project Syndicate (přibyly texty za poslední dva roky) - spolehlivější lingvistická anotace u řady jazyků (tagger zpracovává čistý text bez formátovacích a jiných značek) - odstranění textů v jiném než deklarovaném jazyce z kolekce Acquis - katalánština je nově anotována značkami i lemmaty - bulharština a nizozemština je nově anotována kromě značek i lemmaty - maďarština je nově anotována nástrojem RFTagger (dříve HunPOS) - pro technické potíže s taggerem není litevština anotována značkami a lemmaty; litevština není anotována značkami a lemmaty už od verze 7
Název v anglickém jazyce
The InterCorp corpus, release 10
Popis výsledku anglicky
- Total number of word forms in foreign language texts: 1,483 mil., including 258 mil. core and 1,225 mil. collections - Total number of tokens in Czech texts: 192 mil., including 102 mil. core and 89 mil. collections - A new collection: translations of the Bible (Old and New Testament) in 18 languages - Update of the Project Syndicate collection by new texts published in the previous two years - More reliable linguistic annotation for many languages (taggers process text without formatting and other markup) - Removing texts in languages other than specified from the Acquis collection - Catalan is now annotated with tags and lemmas - Bulgarian and Dutch is now annotated also with lemmas - Hungarian is now tagged by RFTagger (formerly by HunPOS) - For technical issues with the tagger, Lithuanian is not annotated with tags and lemmas; it was not annotated starting with release 7

Klasifikace

Druh
S<sub>db</sub> - Specializovaná veřejná databáze
CEP obor
—
OECD FORD obor
60203 - Linguistics

Návaznosti výsledku

Projekt
<a href="/cs/project/LM2015044" target="_blank" >LM2015044: Český národní korpus</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

Rok uplatnění
2017
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Číslo předpisu
LM2015044/InterCorp_v10
Označení certifikačního orgánu
Ministerstvo školství, mládeže a tělovýchovy České republiky, Karmelitská 529/5, 118 00 Praha 1
Datum certifikace
—

Podobné výsledky(10)

Korpus InterCorp, verze 11 Korpus InterCorp, verze 9 Korpus InterCorp, verze 13

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Korpus InterCorp, verze 10

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)