Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Korpus InterCorp, verze 16ud

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F24%3A10489049" target="_blank" >RIV/00216208:11210/24:10489049 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://wiki.korpus.cz/doku.php/cnk:intercorp:verze16ud" target="_blank" >https://wiki.korpus.cz/doku.php/cnk:intercorp:verze16ud</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Korpus InterCorp, verze 16ud

  • Popis výsledku v původním jazyce

    Nová verze rozsáhlého paralelního korpusu InterCorp obsahujícího původní a překladové texty v 62 jazycích (včetně češtiny). Obsahuje stejné texty jako InterCorp verze 16, obě verze se liší jen v lingvistické anotaci. Po InterCorpu 13ud je to druhá verze InterCorpu s lingvistickou anotací podle standardu Universal Dependencies, jednotnou pro všech 47 anotovaných jazyků. Verze 16ud je také prvním korpusem ČNK, který obsahuje metriky syntaktické komplexity a lexikální diverzity. Anotaci provedl u všech jazyků nástroj UDPipe na základě dat vytvořených v projektu UD.

  • Název v anglickém jazyce

    The InterCorp corpus, release 16ud

  • Popis výsledku anglicky

    A new release of the extensive parallel corpus InterCorp, containing original and translated texts in 62 languages (including Czech). It includes the same texts as InterCorp release 16, with the only difference in linguistic annotation. After InterCorp 13ud, this is the second release of InterCorp with linguistic annotation according to the Universal Dependencies standard, unified for all 47 annotated languages. Release 16ud is also the first CNC corpus to include syntactic complexity and lexical diversity metrics. The annotation for all languages was carried out using the UDPipe tool based on data created within the UD project.

Klasifikace

  • Druh

    R - Software

  • CEP obor

  • OECD FORD obor

    60203 - Linguistics

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/LM2023044" target="_blank" >LM2023044: Český národní korpus</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2024

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    InterCorp v16ud

  • Technické parametry

    Soubor jazykových dat dostupný na http://korpus.cz

  • Ekonomické parametry

    Korpus je volně přístupný a primárně nevytváří žádný zisk

  • IČO vlastníka výsledku

    00216208

  • Název vlastníka

    Univerzita Karlova