Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Vylepšení klasifikace textových dokumentů algoritmem N-Grams pomocí crowdsourcingu

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F61989592%3A15410%2F19%3A73595442" target="_blank" >RIV/61989592:15410/19:73595442 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Vylepšení klasifikace textových dokumentů algoritmem N-Grams pomocí crowdsourcingu

  • Popis výsledku v původním jazyce

    Běžnou úlohou zpracování přirozeného jazyka je klasifikace. Tato úloha je nejlépe vykonávána člověkem, ačkoliv v některých aplikacích si můžeme dovolit mírnou ztrátu přesnosti výměnou za rychlost. Zde najde uplatnění zpracování přirozeného jazyka, které zpracuje text do podoby srozumitelné některému z klasifikátorů, jako např. k-mean neighbor, rozhodovací strom, umělá neuronová síť, nebo SVM. Ke zlepšení přesnosti těchto automatických výsledků však můžeme použít lidský element prostřednictvím crowdsourcingu. Cílem této práce je vytvořit a uvést do praxe klasifikátor textových dokumentů (algoritmus N-grams) a připravit rozhraní pro vyhodnocování a vylepšování klasifikace pomocí crowdsourcingu. Jeho úkolem je totiž kromě sběru dat také vyhodnocení přesnosti klasifikace, což dále rozšiřuje tréninkovou sadu klasifikátoru. Náš postup jsme otestovali na dvou datových sadách, kde dosahoval slibných výsledků napříč různými jazyky. To vedlo k jeho uvedení do běžného provozu na začátku roku 2019 v kooperaci univerzit VŠB-TUO a OU.

  • Název v anglickém jazyce

    Improvement of N-Grams classification of text documents using crowdsourcing

  • Popis výsledku anglicky

    A common task of natural language processing is classification. This task is best performed by man, although in some applications we can afford a slight loss of accuracy in exchange for speed. Here it finds application of natural language processing, which processes the text into a form understood by some of the classifiers, such as k-mean neighbor, decision tree, artificial neural network, or SVM. However, we can use the human element through crowdsourcing to improve the accuracy of these automated results. The aim of this work is to create and put into practice a text document classifier (N-grams algorithm) and to prepare an interface for evaluation and improvement of classification by crowdsourcing. In addition to collecting data, his task is to evaluate the accuracy of the classification, which further extends the training set of the classifier. We tested our progress on two datasets, where it achieved promising results across different languages. This led to its commissioning at the beginning of 2019 in cooperation with the VŠB-TUO and OU universities.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

  • Návaznosti

    I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace

Ostatní

  • Rok uplatnění

    2019

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Data a znalosti &amp; WIKT 2019

  • ISBN

    978-80-553-3354-0

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    4

  • Strana od-do

    133-136

  • Název nakladatele

    Technická univerzita (Košice)

  • Místo vydání

    Košice

  • Místo konání akce

    Košice

  • Datum konání akce

    10. 10. 2019

  • Typ akce podle státní příslušnosti

    EUR - Evropská akce

  • Kód UT WoS článku