Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Korpus InterCorp, verze 13

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F20%3A10419628" target="_blank" >RIV/00216208:11210/20:10419628 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://wiki.korpus.cz/doku.php/cnk:intercorp" target="_blank" >https://wiki.korpus.cz/doku.php/cnk:intercorp</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Korpus InterCorp, verze 13

  • Popis výsledku v původním jazyce

    Nová verze rozsáhlého paralelního korpusu obsahujícího překlady mezi celkem 41 jazyky (včetně češtiny). V porovnání s verzí 12 se počet slov v cizojazyčných textech zvýšil na 1 550 mil., z toho 327 mil. v beletristickém jádru a 1 223 mil. ve volně dostupných kolekcích. Počet slov v českých textech činí celkem 203 mil., z toho 113 mil. jádro a 90 mil. kolekce. Nově přibyly čínské texty v beletristické části a slovinština je tagována novým taggerem ReLDI.

  • Název v anglickém jazyce

    The InterCorp corpus, release 13

  • Popis výsledku anglicky

    A new version of a large parallel corpus containing translations between a total of 41 languages (including Czech). Compared to version 12, the number of words in foreign texts increased to 1,550 million, including 327 million in the fiction core and 1,223 million in freely available collections. The total number of words in Czech texts is 203 million, including 113 million in the core and 90 million in the collections. Chinese texts were added to the core which contains fiction. Slovenian is newly tagged by ReLDI tagger.

Klasifikace

  • Druh

    O - Ostatní výsledky

  • CEP obor

  • OECD FORD obor

    60203 - Linguistics

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/LM2018137" target="_blank" >LM2018137: Český národní korpus</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2020

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů