First-order Frequent Patterns in Text Mining
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F05%3A00014356" target="_blank" >RIV/00216224:14330/05:00014356 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
angličtina
Original language name
First-order Frequent Patterns in Text Mining
Original language description
In this paper a universal framework for mining long first-order frequent patterns in text data is presented. It consists of RAP, an ILP system for mining maximal first-order frequent patterns, and two types of redefined background knowledge. Two methodsof using generated patterns for solving text mining tasks are described: propositionalization and CBA (class based association). A new variant of the CBA rule based classifier is proposed. The framework is used for solving three text mining tasks: information extraction from biomedical texts, context-sensitive text correction of English and morphological disambiguation of Czech. The distributed mining of frequent patterns is described and its influence on mining in text is discussed. It is shown that frequent patterns as new features for propositionalization usually provide better results than CBA.
Czech name
Prvořádové časté vzory v dolování v textu
Czech description
V tomto článku představíme nové univerzální rozhraní využívající prvořádové časté vzory pro řešení úloh dolování v textu. Sestává ze systému RAP, což je systém ILP určený pro hledání maximálních častých vzorů, a dvou typů doménové znalosti. Jsou popsánydvě metody využití nalezených vzorů pro dolování v textu: propozicionalizace a CBA. Je představena nová verze CBA klasifikátoru. Použití systému je demonstrováno na třech úlohách z dolování textu: extrakci informace z biologických textů, kontextové kontrole pravopisu a morfologické desambiguaci. Diskutujeme také přínos distribuovaného vyhledávání častých vzorů. Je ukázáno, že časté vzory použité jako nové rysy v propozicionalizaci poskytují lepší výsledky než CBA.
Classification
Type
D - Article in proceedings
CEP classification
IN - Informatics
OECD FORD branch
—
Result continuities
Project
—
Continuities
Z - Vyzkumny zamer (s odkazem do CEZ)
Others
Publication year
2005
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Article name in the collection
EPIA'05, 12th Portuguese Conference on Artificial Intelligence
ISBN
0-7803-9365-1
ISSN
—
e-ISSN
—
Number of pages
7
Pages from-to
344-350
Publisher name
Institute of Electrical and Electronics Engineers, Inc.
Place of publication
Covilha, Portugal
Event location
Covilha, Portugal
Event date
Dec 5, 2005
Type of event by nationality
WRD - Celosvětová akce
UT code for WoS article
—