Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

CzEng 0.9, Building a Large Czech-English Automatic Parallel Treebank

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F09%3A00207387" target="_blank" >RIV/00216208:11320/09:00207387 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    CzEng 0.9, Building a Large Czech-English Automatic Parallel Treebank

  • Popis výsledku v původním jazyce

    We describe our ongoing efforts in collecting a Czech-English parallel corpus CzEng. The paper provides full details on the current version~0.9 and focuses on its new features: (1) data from new sources were added, most importantly a few hundred electronically available books, technical documentation and also some parallel web pages, (2) the full corpus has been automatically annotated up to the tectogrammatical layer (surface and deep syntactic analysis), (3) sentence segmentation has been refined, and(4) several heuristic filters to improve corpus quality were implemented. In total, we provide a sentence-aligned automatic parallel treebank of 8.0 million sentences, 93 English and 82 Czech words. CzEng~0.9 is freely available for non-commercial research purposes.

  • Název v anglickém jazyce

    CzEng 0.9, Building a Large Czech-English Automatic Parallel Treebank

  • Popis výsledku anglicky

    We describe our ongoing efforts in collecting a Czech-English parallel corpus CzEng. The paper provides full details on the current version~0.9 and focuses on its new features: (1) data from new sources were added, most importantly a few hundred electronically available books, technical documentation and also some parallel web pages, (2) the full corpus has been automatically annotated up to the tectogrammatical layer (surface and deep syntactic analysis), (3) sentence segmentation has been refined, and(4) several heuristic filters to improve corpus quality were implemented. In total, we provide a sentence-aligned automatic parallel treebank of 8.0 million sentences, 93 English and 82 Czech words. CzEng~0.9 is freely available for non-commercial research purposes.

Klasifikace

  • Druh

    J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)

  • CEP obor

    AI - Jazykověda

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>Z - Vyzkumny zamer (s odkazem do CEZ)

Ostatní

  • Rok uplatnění

    2009

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název periodika

    Prague Bulletin of Mathematical Linguistics

  • ISSN

    0032-6585

  • e-ISSN

  • Svazek periodika

    Neuveden

  • Číslo periodika v rámci svazku

    92

  • Stát vydavatele periodika

    CZ - Česká republika

  • Počet stran výsledku

    20

  • Strana od-do

  • Kód UT WoS článku

  • EID výsledku v databázi Scopus