Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Korpus InterCorp, verze 9

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F16%3A10336499" target="_blank" >RIV/00216208:11210/16:10336499 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://wiki.korpus.cz/doku.php/cnk:intercorp" target="_blank" >https://wiki.korpus.cz/doku.php/cnk:intercorp</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Korpus InterCorp, verze 9

  • Popis výsledku v původním jazyce

    InterCorp má ve verzi 9 celkem 1460 mil. slov v cizích jazycích, z toho 232 mil. připadá na jádro a 1229 mil. na kolekce. Počet slov v českých textech je celkem 187 mil., z toho 97 mil. v jádře a 90 mil. v kolekcích. Novým jazykem se stala romština a nově jsou označkované a lemmatizované jazyky chorvatština, srbština, lotyština. Srbské texty zapsané cyrilicí byly konvertovány do latinky. Díky novému způsobu plánování textů se zlepšilo zastoupení jednotlivých jazyků. Také byla sjednocena jména autorů a překladatelů v rámci jednoho jazyka.

  • Název v anglickém jazyce

    The InterCorp corpus, release 9

  • Popis výsledku anglicky

    InterCorp in version 9 has 1,460 mil. words in foreign languages, including 232 mil. words in the core part and 1,229 mil. words in the collections. The counts for Czech texts are 187 mil. words total, including 97 mil. words in the core and 90 mil. in the collections. Romany was added as a new language. The newly tagged and lemmatized languages are Croatian, Serbian are Latvian. Serbian texts written in Cyrillic were converted into Latin script. Due to a new way of deciding about newly added texts the representation of individual languages was improved. The names of authors and translators within a language were unified.

Klasifikace

  • Druh

    R - Software

  • CEP obor

    AI - Jazykověda

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/LM2015044" target="_blank" >LM2015044: Český národní korpus</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2016

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    InterCorp v9

  • Technické parametry

    Soubor jazykových dat dostupný na http://korpus.cz

  • Ekonomické parametry

    Korpus je volně přístupný a primárně nevytváří žádný zisk

  • IČO vlastníka výsledku

    00216208

  • Název vlastníka

    Univerzita Karlova v Praze