All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Improvement of N-Grams classification of text documents using crowdsourcing

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F61989592%3A15410%2F19%3A73595442" target="_blank" >RIV/61989592:15410/19:73595442 - isvavai.cz</a>

  • Result on the web

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    Vylepšení klasifikace textových dokumentů algoritmem N-Grams pomocí crowdsourcingu

  • Original language description

    Běžnou úlohou zpracování přirozeného jazyka je klasifikace. Tato úloha je nejlépe vykonávána člověkem, ačkoliv v některých aplikacích si můžeme dovolit mírnou ztrátu přesnosti výměnou za rychlost. Zde najde uplatnění zpracování přirozeného jazyka, které zpracuje text do podoby srozumitelné některému z klasifikátorů, jako např. k-mean neighbor, rozhodovací strom, umělá neuronová síť, nebo SVM. Ke zlepšení přesnosti těchto automatických výsledků však můžeme použít lidský element prostřednictvím crowdsourcingu. Cílem této práce je vytvořit a uvést do praxe klasifikátor textových dokumentů (algoritmus N-grams) a připravit rozhraní pro vyhodnocování a vylepšování klasifikace pomocí crowdsourcingu. Jeho úkolem je totiž kromě sběru dat také vyhodnocení přesnosti klasifikace, což dále rozšiřuje tréninkovou sadu klasifikátoru. Náš postup jsme otestovali na dvou datových sadách, kde dosahoval slibných výsledků napříč různými jazyky. To vedlo k jeho uvedení do běžného provozu na začátku roku 2019 v kooperaci univerzit VŠB-TUO a OU.

  • Czech name

    Vylepšení klasifikace textových dokumentů algoritmem N-Grams pomocí crowdsourcingu

  • Czech description

    Běžnou úlohou zpracování přirozeného jazyka je klasifikace. Tato úloha je nejlépe vykonávána člověkem, ačkoliv v některých aplikacích si můžeme dovolit mírnou ztrátu přesnosti výměnou za rychlost. Zde najde uplatnění zpracování přirozeného jazyka, které zpracuje text do podoby srozumitelné některému z klasifikátorů, jako např. k-mean neighbor, rozhodovací strom, umělá neuronová síť, nebo SVM. Ke zlepšení přesnosti těchto automatických výsledků však můžeme použít lidský element prostřednictvím crowdsourcingu. Cílem této práce je vytvořit a uvést do praxe klasifikátor textových dokumentů (algoritmus N-grams) a připravit rozhraní pro vyhodnocování a vylepšování klasifikace pomocí crowdsourcingu. Jeho úkolem je totiž kromě sběru dat také vyhodnocení přesnosti klasifikace, což dále rozšiřuje tréninkovou sadu klasifikátoru. Náš postup jsme otestovali na dvou datových sadách, kde dosahoval slibných výsledků napříč různými jazyky. To vedlo k jeho uvedení do běžného provozu na začátku roku 2019 v kooperaci univerzit VŠB-TUO a OU.

Classification

  • Type

    D - Article in proceedings

  • CEP classification

  • OECD FORD branch

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Result continuities

  • Project

  • Continuities

    I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace

Others

  • Publication year

    2019

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Article name in the collection

    Data a znalosti &amp; WIKT 2019

  • ISBN

    978-80-553-3354-0

  • ISSN

  • e-ISSN

  • Number of pages

    4

  • Pages from-to

    133-136

  • Publisher name

    Technická univerzita (Košice)

  • Place of publication

    Košice

  • Event location

    Košice

  • Event date

    Oct 10, 2019

  • Type of event by nationality

    EUR - Evropská akce

  • UT code for WoS article