Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

DBpedia Abstracts: A Large-Scale, Open, Multilingual NLP Training Corpus

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21240%2F16%3A00300156" target="_blank" >RIV/68407700:21240/16:00300156 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://www.lrec-conf.org/proceedings/lrec2016/pdf/895_Paper.pdf" target="_blank" >http://www.lrec-conf.org/proceedings/lrec2016/pdf/895_Paper.pdf</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    DBpedia Abstracts: A Large-Scale, Open, Multilingual NLP Training Corpus

  • Popis výsledku v původním jazyce

    The ever increasing importance of machine learning in Natural Language Processing is accompanied by an equally increasing need in large-scale training and evaluation corpora. Due to its size, its openness and relative quality, the Wikipedia has already been a source of such data, but on a limited scale. This paper introduces the DBpedia Abstract Corpus, a large-scale, open corpus of annotated Wikipedia texts in six languages, featuring over 11 million texts and over 97 million entity links. The properties of the Wikipedia texts are being described, as well as the corpus creation process, its format and interesting use-cases, like Named Entity Linking training and evaluation.

  • Název v anglickém jazyce

    DBpedia Abstracts: A Large-Scale, Open, Multilingual NLP Training Corpus

  • Popis výsledku anglicky

    The ever increasing importance of machine learning in Natural Language Processing is accompanied by an equally increasing need in large-scale training and evaluation corpora. Due to its size, its openness and relative quality, the Wikipedia has already been a source of such data, but on a limited scale. This paper introduces the DBpedia Abstract Corpus, a large-scale, open corpus of annotated Wikipedia texts in six languages, featuring over 11 million texts and over 97 million entity links. The properties of the Wikipedia texts are being described, as well as the corpus creation process, its format and interesting use-cases, like Named Entity Linking training and evaluation.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

  • Návaznosti

    V - Vyzkumna aktivita podporovana z jinych verejnych zdroju

Ostatní

  • Rok uplatnění

    2016

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016)

  • ISBN

    978-2-9517408-9-1

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    5

  • Strana od-do

    3339-3343

  • Název nakladatele

    European Language Recources Association (ELRA)

  • Místo vydání

    Paris

  • Místo konání akce

    Portorož

  • Datum konání akce

    23. 5. 2016

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku

    000526952503091