Application of Lemmatization and Summarization Methods in Topic Identification Module for Large Scale Language Modeling Data Filtering
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F12%3A43915504" target="_blank" >RIV/49777513:23520/12:43915504 - isvavai.cz</a>
Výsledek na webu
<a href="http://link.springer.com/chapter/10.1007%2F978-3-642-32790-2_23" target="_blank" >http://link.springer.com/chapter/10.1007%2F978-3-642-32790-2_23</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-642-32790-2_23" target="_blank" >10.1007/978-3-642-32790-2_23</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Application of Lemmatization and Summarization Methods in Topic Identification Module for Large Scale Language Modeling Data Filtering
Popis výsledku v původním jazyce
The paper presents experiments with the topic identification module which is a part of a complex system for acquisition and storing large volumes of text data. The topic identification module processes each acquired data item and assigns it topics from adefined topic hierarchy. The topic hierarchy is quite extensive - it contains about 450 topics and topic categories. It can easily happen that for some narrowly focused topic there is not enough data for the topic identification training. Lemmatizationis shown to improve the results when dealing with sparse data in the area of information retrieval, therefore the effects of lemmatization on topic identification results is studied in the paper. On the other hand, since the system is used for processinglarge amounts of data, a summarization method was implemented and the effect of using only the summary of an article on the topic identification accuracy is studied.
Název v anglickém jazyce
Application of Lemmatization and Summarization Methods in Topic Identification Module for Large Scale Language Modeling Data Filtering
Popis výsledku anglicky
The paper presents experiments with the topic identification module which is a part of a complex system for acquisition and storing large volumes of text data. The topic identification module processes each acquired data item and assigns it topics from adefined topic hierarchy. The topic hierarchy is quite extensive - it contains about 450 topics and topic categories. It can easily happen that for some narrowly focused topic there is not enough data for the topic identification training. Lemmatizationis shown to improve the results when dealing with sparse data in the area of information retrieval, therefore the effects of lemmatization on topic identification results is studied in the paper. On the other hand, since the system is used for processinglarge amounts of data, a summarization method was implemented and the effect of using only the summary of an article on the topic identification accuracy is studied.
Klasifikace
Druh
J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2010013" target="_blank" >LM2010013: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2012
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Lecture Notes in Computer Science
ISSN
0302-9743
e-ISSN
—
Svazek periodika
7499
Číslo periodika v rámci svazku
Neuveden
Stát vydavatele periodika
DE - Spolková republika Německo
Počet stran výsledku
8
Strana od-do
191-198
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—