InterCorp - A Multilingual Parallel Corpus of the Czech National Corpus
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F18%3A10426349" target="_blank" >RIV/00216208:11210/18:10426349 - isvavai.cz</a>
Výsledek na webu
<a href="https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=~9WdFvVsmu" target="_blank" >https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=~9WdFvVsmu</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
němčina
Název v původním jazyce
InterCorp - Ein mehrsprachiges Parallelkorpus des Tschechischen Nationalkorpus (Český národní korpus)
Popis výsledku v původním jazyce
Diese Übersichtsarbeit beschreibt und bewertet das InterCorp, ein mehrsprachiges Parallelkorpus mit referentiellem Charakter, das vom Institut für das tschechische Nationalkorpus und dem Institut für Theoretische und Computerlinguistik an der Karls-Universität (Prag) entwickelt wurde. In seiner aktuellen Version 10, die 2017 veröffentlicht wurde, umfasst es 2 108 703 589 Token an Sprachdaten in 40 verschiedenen Sprachen. Es ist nach dem Übersetzungsprinzip mit Tschechisch als Pivot-Sprache entwickelt. Daher ist jeder integrierte Text in Tschechisch und mindestens einer weiteren Sprache verfügbar. Ein wesentlicher Teil des Korpus, der Kern, der überwiegend Belletristik umfasst, wird im Projekt selbst manuell aligniert. Andere Teile des Korpus, die sogenannten Collections, werden aus anderen Projekten integriert, wo sie automatisch aligniert wurden. Neben einer detaillierten Beschreibung der Struktur und des Inhalts des InterCorp konzentriert sich diese Rezension auf die Zugänglichkeit über den Online-Korpusmanager KonText und bewertet den Wert des Korpus für Forschungsfragen, die nicht primär Tschechisch betreffen.
Název v anglickém jazyce
InterCorp - A Multilingual Parallel Corpus of the Czech National Corpus
Popis výsledku anglicky
This review describes and evaluates the InterCorp, a multilingual parallel corpus with referential character, developed by the Institute of the Czech National Corpus and the Institute of Theoretical and Computer Linguistics at the Charles University (Prague). In its current version 10, which was published in 2017, it comprises 2 108 703 589 tokens of language data in 40 different languages. It is developed according to the translation-principle with Czech as its pivot language. Therefore, each integrated text is available in Czech and at least one other language. A substantial part of the corpus, the core, which comprises mostly fiction, is aligned manually in the project itself. Other parts of the corpus, the so-called collections, are integrated from other projects, where they have been aligned automatically. Besides a detailed description of the structure and content of the InterCorp, this review focuses the accessiblitiy via the online corpus manager KonText and assesses the value of the corpus for research questions that do not primarily focus Czech.
Klasifikace
Druh
J<sub>ost</sub> - Ostatní články v recenzovaných periodicích
CEP obor
—
OECD FORD obor
60203 - Linguistics
Návaznosti výsledku
Projekt
—
Návaznosti
—
Ostatní
Rok uplatnění
2018
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
RIDE
ISSN
2363-4952
e-ISSN
—
Svazek periodika
Neuveden
Číslo periodika v rámci svazku
9
Stát vydavatele periodika
DE - Spolková republika Německo
Počet stran výsledku
25
Strana od-do
—
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—