Dolování relevantních textových dokumentů algoritmem k-NN trénovaným pouze pomocí pozitivních příkladů
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F05%3A00013631" target="_blank" >RIV/00216224:14330/05:00013631 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Mining Relevant Text Documents Using Ranking-Based k-NN Algorithms Trained by Only Positive Examples
Popis výsledku v původním jazyce
The problem of mining relevant information from large numbers of unstructured text documents is often handled with various machine learning algorithms trained using both positive and negative examples that were prepared by an expert in a~given specific domain. However, when just positive examples are available, the task requires algorithms adapted to the different situation. A~modified k-nearest neighbors algorithm, trained using only positive examples, can classify by way of ranking unlabeled instancesdepending on their similarity to training examples. This procedure provides a~significant part of unlabeled positive instances with high precision. The main objective is to find a~method for mining relevant documents from large volumes (hundreds or thousands) of similar medical text files. Experiments and comparisons with various real data obtained from several Internet resources and represented as a bag of words provided---under specific conditions---quite acceptable results from the p
Název v anglickém jazyce
Mining Relevant Text Documents Using Ranking-Based k-NN Algorithms Trained by Only Positive Examples
Popis výsledku anglicky
The problem of mining relevant information from large numbers of unstructured text documents is often handled with various machine learning algorithms trained using both positive and negative examples that were prepared by an expert in a~given specific domain. However, when just positive examples are available, the task requires algorithms adapted to the different situation. A~modified k-nearest neighbors algorithm, trained using only positive examples, can classify by way of ranking unlabeled instancesdepending on their similarity to training examples. This procedure provides a~significant part of unlabeled positive instances with high precision. The main objective is to find a~method for mining relevant documents from large volumes (hundreds or thousands) of similar medical text files. Experiments and comparisons with various real data obtained from several Internet resources and represented as a bag of words provided---under specific conditions---quite acceptable results from the p
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2005
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Znalosti 2005, sborník příspěvků
ISBN
80-248-0755-6
ISSN
—
e-ISSN
—
Počet stran výsledku
12
Strana od-do
29-40
Název nakladatele
VŠB--Technická univerzita Ostrava
Místo vydání
Ostrava
Místo konání akce
Stará Lesná
Datum konání akce
9. 2. 2005
Typ akce podle státní příslušnosti
EUR - Evropská akce
Kód UT WoS článku
—