Prvořádové časté vzory v dolování v textu
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F05%3A00014356" target="_blank" >RIV/00216224:14330/05:00014356 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
First-order Frequent Patterns in Text Mining
Popis výsledku v původním jazyce
In this paper a universal framework for mining long first-order frequent patterns in text data is presented. It consists of RAP, an ILP system for mining maximal first-order frequent patterns, and two types of redefined background knowledge. Two methodsof using generated patterns for solving text mining tasks are described: propositionalization and CBA (class based association). A new variant of the CBA rule based classifier is proposed. The framework is used for solving three text mining tasks: information extraction from biomedical texts, context-sensitive text correction of English and morphological disambiguation of Czech. The distributed mining of frequent patterns is described and its influence on mining in text is discussed. It is shown that frequent patterns as new features for propositionalization usually provide better results than CBA.
Název v anglickém jazyce
First-order Frequent Patterns in Text Mining
Popis výsledku anglicky
In this paper a universal framework for mining long first-order frequent patterns in text data is presented. It consists of RAP, an ILP system for mining maximal first-order frequent patterns, and two types of redefined background knowledge. Two methodsof using generated patterns for solving text mining tasks are described: propositionalization and CBA (class based association). A new variant of the CBA rule based classifier is proposed. The framework is used for solving three text mining tasks: information extraction from biomedical texts, context-sensitive text correction of English and morphological disambiguation of Czech. The distributed mining of frequent patterns is described and its influence on mining in text is discussed. It is shown that frequent patterns as new features for propositionalization usually provide better results than CBA.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2005
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
EPIA'05, 12th Portuguese Conference on Artificial Intelligence
ISBN
0-7803-9365-1
ISSN
—
e-ISSN
—
Počet stran výsledku
7
Strana od-do
344-350
Název nakladatele
Institute of Electrical and Electronics Engineers, Inc.
Místo vydání
Covilha, Portugal
Místo konání akce
Covilha, Portugal
Datum konání akce
5. 12. 2005
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—