Vylepšení klasifikace textových dokumentů algoritmem N-Grams pomocí crowdsourcingu
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F61989592%3A15410%2F19%3A73595442" target="_blank" >RIV/61989592:15410/19:73595442 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Vylepšení klasifikace textových dokumentů algoritmem N-Grams pomocí crowdsourcingu
Popis výsledku v původním jazyce
Běžnou úlohou zpracování přirozeného jazyka je klasifikace. Tato úloha je nejlépe vykonávána člověkem, ačkoliv v některých aplikacích si můžeme dovolit mírnou ztrátu přesnosti výměnou za rychlost. Zde najde uplatnění zpracování přirozeného jazyka, které zpracuje text do podoby srozumitelné některému z klasifikátorů, jako např. k-mean neighbor, rozhodovací strom, umělá neuronová síť, nebo SVM. Ke zlepšení přesnosti těchto automatických výsledků však můžeme použít lidský element prostřednictvím crowdsourcingu. Cílem této práce je vytvořit a uvést do praxe klasifikátor textových dokumentů (algoritmus N-grams) a připravit rozhraní pro vyhodnocování a vylepšování klasifikace pomocí crowdsourcingu. Jeho úkolem je totiž kromě sběru dat také vyhodnocení přesnosti klasifikace, což dále rozšiřuje tréninkovou sadu klasifikátoru. Náš postup jsme otestovali na dvou datových sadách, kde dosahoval slibných výsledků napříč různými jazyky. To vedlo k jeho uvedení do běžného provozu na začátku roku 2019 v kooperaci univerzit VŠB-TUO a OU.
Název v anglickém jazyce
Improvement of N-Grams classification of text documents using crowdsourcing
Popis výsledku anglicky
A common task of natural language processing is classification. This task is best performed by man, although in some applications we can afford a slight loss of accuracy in exchange for speed. Here it finds application of natural language processing, which processes the text into a form understood by some of the classifiers, such as k-mean neighbor, decision tree, artificial neural network, or SVM. However, we can use the human element through crowdsourcing to improve the accuracy of these automated results. The aim of this work is to create and put into practice a text document classifier (N-grams algorithm) and to prepare an interface for evaluation and improvement of classification by crowdsourcing. In addition to collecting data, his task is to evaluate the accuracy of the classification, which further extends the training set of the classifier. We tested our progress on two datasets, where it achieved promising results across different languages. This led to its commissioning at the beginning of 2019 in cooperation with the VŠB-TUO and OU universities.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2019
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Data a znalosti & WIKT 2019
ISBN
978-80-553-3354-0
ISSN
—
e-ISSN
—
Počet stran výsledku
4
Strana od-do
133-136
Název nakladatele
Technická univerzita (Košice)
Místo vydání
Košice
Místo konání akce
Košice
Datum konání akce
10. 10. 2019
Typ akce podle státní příslušnosti
EUR - Evropská akce
Kód UT WoS článku
—