Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

HindEnCorp - Hindi-English and Hindi-only Corpus for Machine Translation

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F14%3A10289364" target="_blank" >RIV/00216208:11320/14:10289364 - isvavai.cz</a>

  • Nalezeny alternativní kódy

    RIV/00216224:14330/14:00076251

  • Výsledek na webu

    <a href="http://www.lrec-conf.org/proceedings/lrec2014/pdf/835_Paper.pdf" target="_blank" >http://www.lrec-conf.org/proceedings/lrec2014/pdf/835_Paper.pdf</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    HindEnCorp - Hindi-English and Hindi-only Corpus for Machine Translation

  • Popis výsledku v původním jazyce

    We present HindEnCorp, a parallel corpus of Hindi and English, and HindMonoCorp, a monolingual corpus of Hindi in their release version 0.5. Both corpora were collected from web sources and preprocessed primarily for the training of statistical machine translation systems. HindEnCorp consists of 274k parallel sentences (3.9 million Hindi and 3.8 million English tokens). HindMonoCorp amounts to 787 million tokens in 44 million sentences. Both the corpora are freely available for non-commercial research and their preliminary release has been used by numerous participants of the WMT 2014 shared translation task.

  • Název v anglickém jazyce

    HindEnCorp - Hindi-English and Hindi-only Corpus for Machine Translation

  • Popis výsledku anglicky

    We present HindEnCorp, a parallel corpus of Hindi and English, and HindMonoCorp, a monolingual corpus of Hindi in their release version 0.5. Both corpora were collected from web sources and preprocessed primarily for the training of statistical machine translation systems. HindEnCorp consists of 274k parallel sentences (3.9 million Hindi and 3.8 million English tokens). HindMonoCorp amounts to 787 million tokens in 44 million sentences. Both the corpora are freely available for non-commercial research and their preliminary release has been used by numerous participants of the WMT 2014 shared translation task.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    IN - Informatika

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/LM2010013" target="_blank" >LM2010013: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2014

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014)

  • ISBN

    978-2-9517408-8-4

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    6

  • Strana od-do

    3550-3555

  • Název nakladatele

    European Language Resources Association

  • Místo vydání

    Reykjavík, Iceland

  • Místo konání akce

    Reykjavík, Iceland

  • Datum konání akce

    26. 5. 2014

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku