Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Special domain data mining through DBpedia on the example of Biology

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F13%3A10194643" target="_blank" >RIV/00216208:11320/13:10194643 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Special domain data mining through DBpedia on the example of Biology

  • Popis výsledku v původním jazyce

    Wikipedia is not only a large encyclopedia, but lately also a source of linguistic data for various applications. Individual language versions allow to get the parallel data in multiple languages. Inclusion of Wikipedia articles into categories can be used to filter the language data according to a domain. In our project, we needed a large number of parallel data for training systems of machine translation in the field of biomedicine. One of the sources was Wikipedia. To select the data from the given domain we used the results of the DBpedia project, which extracts structured information from the Wikipedia articles and makes them available to users in RDF format. In this paper we describe the process of data extraction and the problems that we had todeal with, because the open source project like Wikipedia, to which anyone can contribute, is not very reliable concerning consistency.

  • Název v anglickém jazyce

    Special domain data mining through DBpedia on the example of Biology

  • Popis výsledku anglicky

    Wikipedia is not only a large encyclopedia, but lately also a source of linguistic data for various applications. Individual language versions allow to get the parallel data in multiple languages. Inclusion of Wikipedia articles into categories can be used to filter the language data according to a domain. In our project, we needed a large number of parallel data for training systems of machine translation in the field of biomedicine. One of the sources was Wikipedia. To select the data from the given domain we used the results of the DBpedia project, which extracts structured information from the Wikipedia articles and makes them available to users in RDF format. In this paper we describe the process of data extraction and the problems that we had todeal with, because the open source project like Wikipedia, to which anyone can contribute, is not very reliable concerning consistency.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    IN - Informatika

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

  • Návaznosti

    R - Projekt Ramcoveho programu EK

Ostatní

  • Rok uplatnění

    2013

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    ITAT 2013: Information Technologies - Applications and Theory (Workshops, Posters, and Tutorials)

  • ISBN

    978-1-4909-5208-6

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    3

  • Strana od-do

    2-4

  • Název nakladatele

    CreateSpace Independent Publishing Platform

  • Místo vydání

    Donovaly, Slovakia

  • Místo konání akce

    Donovaly, Slovakia

  • Datum konání akce

    11. 9. 2013

  • Typ akce podle státní příslušnosti

    CST - Celostátní akce

  • Kód UT WoS článku