Improvement of N-Grams classification of text documents using crowdsourcing
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F61989592%3A15410%2F19%3A73595442" target="_blank" >RIV/61989592:15410/19:73595442 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Vylepšení klasifikace textových dokumentů algoritmem N-Grams pomocí crowdsourcingu
Original language description
Běžnou úlohou zpracování přirozeného jazyka je klasifikace. Tato úloha je nejlépe vykonávána člověkem, ačkoliv v některých aplikacích si můžeme dovolit mírnou ztrátu přesnosti výměnou za rychlost. Zde najde uplatnění zpracování přirozeného jazyka, které zpracuje text do podoby srozumitelné některému z klasifikátorů, jako např. k-mean neighbor, rozhodovací strom, umělá neuronová síť, nebo SVM. Ke zlepšení přesnosti těchto automatických výsledků však můžeme použít lidský element prostřednictvím crowdsourcingu. Cílem této práce je vytvořit a uvést do praxe klasifikátor textových dokumentů (algoritmus N-grams) a připravit rozhraní pro vyhodnocování a vylepšování klasifikace pomocí crowdsourcingu. Jeho úkolem je totiž kromě sběru dat také vyhodnocení přesnosti klasifikace, což dále rozšiřuje tréninkovou sadu klasifikátoru. Náš postup jsme otestovali na dvou datových sadách, kde dosahoval slibných výsledků napříč různými jazyky. To vedlo k jeho uvedení do běžného provozu na začátku roku 2019 v kooperaci univerzit VŠB-TUO a OU.
Czech name
Vylepšení klasifikace textových dokumentů algoritmem N-Grams pomocí crowdsourcingu
Czech description
Běžnou úlohou zpracování přirozeného jazyka je klasifikace. Tato úloha je nejlépe vykonávána člověkem, ačkoliv v některých aplikacích si můžeme dovolit mírnou ztrátu přesnosti výměnou za rychlost. Zde najde uplatnění zpracování přirozeného jazyka, které zpracuje text do podoby srozumitelné některému z klasifikátorů, jako např. k-mean neighbor, rozhodovací strom, umělá neuronová síť, nebo SVM. Ke zlepšení přesnosti těchto automatických výsledků však můžeme použít lidský element prostřednictvím crowdsourcingu. Cílem této práce je vytvořit a uvést do praxe klasifikátor textových dokumentů (algoritmus N-grams) a připravit rozhraní pro vyhodnocování a vylepšování klasifikace pomocí crowdsourcingu. Jeho úkolem je totiž kromě sběru dat také vyhodnocení přesnosti klasifikace, což dále rozšiřuje tréninkovou sadu klasifikátoru. Náš postup jsme otestovali na dvou datových sadách, kde dosahoval slibných výsledků napříč různými jazyky. To vedlo k jeho uvedení do běžného provozu na začátku roku 2019 v kooperaci univerzit VŠB-TUO a OU.
Classification
Type
D - Article in proceedings
CEP classification
—
OECD FORD branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Result continuities
Project
—
Continuities
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Others
Publication year
2019
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Article name in the collection
Data a znalosti & WIKT 2019
ISBN
978-80-553-3354-0
ISSN
—
e-ISSN
—
Number of pages
4
Pages from-to
133-136
Publisher name
Technická univerzita (Košice)
Place of publication
Košice
Event location
Košice
Event date
Oct 10, 2019
Type of event by nationality
EUR - Evropská akce
UT code for WoS article
—