Combining Sequence and Itemset Mining to Discover Named Entities in Biomedical Texts: A New Type of Pattern
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F09%3A00156727" target="_blank" >RIV/68407700:21230/09:00156727 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Combining Sequence and Itemset Mining to Discover Named Entities in Biomedical Texts: A New Type of Pattern
Popis výsledku v původním jazyce
Biomedical Named Entity Recognition (NER) is still a challenging problem. In this paper, we show that pattern mining techniques such as sequential pattern mining and sequential rules mining, can be useful to tackle this problem but present some limitations. That it is why we define a new kind of pattern called LSR patterns that offer an excellent trade-off between the high precision of sequential rules and the high recall of sequential patterns. We formalize the LSR pattern mining problem. We then showhow LSR patterns enable us to successfully tackle biomedical NER problem. We report experiments carried out on real data sets that underline the relevance of our proposition.
Název v anglickém jazyce
Combining Sequence and Itemset Mining to Discover Named Entities in Biomedical Texts: A New Type of Pattern
Popis výsledku anglicky
Biomedical Named Entity Recognition (NER) is still a challenging problem. In this paper, we show that pattern mining techniques such as sequential pattern mining and sequential rules mining, can be useful to tackle this problem but present some limitations. That it is why we define a new kind of pattern called LSR patterns that offer an excellent trade-off between the high precision of sequential rules and the high recall of sequential patterns. We formalize the LSR pattern mining problem. We then showhow LSR patterns enable us to successfully tackle biomedical NER problem. We report experiments carried out on real data sets that underline the relevance of our proposition.
Klasifikace
Druh
J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/MEB020818" target="_blank" >MEB020818: Fúze heterogenních dat pro dolování genomických a proteomických znalostí</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2009
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
International Journal of Data Mining, Modelling and Management
ISSN
1759-1163
e-ISSN
—
Svazek periodika
1
Číslo periodika v rámci svazku
2
Stát vydavatele periodika
CH - Švýcarská konfederace
Počet stran výsledku
30
Strana od-do
—
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—