CzEng 0.9, Building a Large Czech-English Automatic Parallel Treebank
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F09%3A00207387" target="_blank" >RIV/00216208:11320/09:00207387 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
CzEng 0.9, Building a Large Czech-English Automatic Parallel Treebank
Popis výsledku v původním jazyce
We describe our ongoing efforts in collecting a Czech-English parallel corpus CzEng. The paper provides full details on the current version~0.9 and focuses on its new features: (1) data from new sources were added, most importantly a few hundred electronically available books, technical documentation and also some parallel web pages, (2) the full corpus has been automatically annotated up to the tectogrammatical layer (surface and deep syntactic analysis), (3) sentence segmentation has been refined, and(4) several heuristic filters to improve corpus quality were implemented. In total, we provide a sentence-aligned automatic parallel treebank of 8.0 million sentences, 93 English and 82 Czech words. CzEng~0.9 is freely available for non-commercial research purposes.
Název v anglickém jazyce
CzEng 0.9, Building a Large Czech-English Automatic Parallel Treebank
Popis výsledku anglicky
We describe our ongoing efforts in collecting a Czech-English parallel corpus CzEng. The paper provides full details on the current version~0.9 and focuses on its new features: (1) data from new sources were added, most importantly a few hundred electronically available books, technical documentation and also some parallel web pages, (2) the full corpus has been automatically annotated up to the tectogrammatical layer (surface and deep syntactic analysis), (3) sentence segmentation has been refined, and(4) several heuristic filters to improve corpus quality were implemented. In total, we provide a sentence-aligned automatic parallel treebank of 8.0 million sentences, 93 English and 82 Czech words. CzEng~0.9 is freely available for non-commercial research purposes.
Klasifikace
Druh
J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)
CEP obor
AI - Jazykověda
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2009
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Prague Bulletin of Mathematical Linguistics
ISSN
0032-6585
e-ISSN
—
Svazek periodika
Neuveden
Číslo periodika v rámci svazku
92
Stát vydavatele periodika
CZ - Česká republika
Počet stran výsledku
20
Strana od-do
—
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—