IDENTIC Corpus: Morphologically Enriched Indonesian-English Parallel Corpus
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F12%3A10130077" target="_blank" >RIV/00216208:11320/12:10130077 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
IDENTIC Corpus: Morphologically Enriched Indonesian-English Parallel Corpus
Popis výsledku v původním jazyce
This paper describes the creation process of an Indonesian-English parallel corpus (IDENTIC). The corpus contains 45,000 sentences collected from different sources in different genres. Several manual text preprocessing tasks, such as alignment and spelling correction, are applied to the corpus to assure its quality. We also apply language specific text processing such as tokenization on both sides and clitic normalization on the Indonesian side. The corpus is available in two different formats: 'plain',stored in text format and 'morphologically enriched', stored in CoNLL format. Some parts of the corpus are publicly available at the IDENTIC homepage.
Název v anglickém jazyce
IDENTIC Corpus: Morphologically Enriched Indonesian-English Parallel Corpus
Popis výsledku anglicky
This paper describes the creation process of an Indonesian-English parallel corpus (IDENTIC). The corpus contains 45,000 sentences collected from different sources in different genres. Several manual text preprocessing tasks, such as alignment and spelling correction, are applied to the corpus to assure its quality. We also apply language specific text processing such as tokenization on both sides and clitic normalization on the Indonesian side. The corpus is available in two different formats: 'plain',stored in text format and 'morphologically enriched', stored in CoNLL format. Some parts of the corpus are publicly available at the IDENTIC homepage.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2012
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC 2012)
ISBN
978-2-9517408-7-7
ISSN
—
e-ISSN
—
Počet stran výsledku
5
Strana od-do
902-906
Název nakladatele
European Language Resources Association
Místo vydání
?stanbul, Turkey
Místo konání akce
?stanbul, Turkey
Datum konání akce
21. 5. 2012
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—