Knowledge-Based Feature Extraction in Genomics
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F09%3A03154232" target="_blank" >RIV/68407700:21230/09:03154232 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
angličtina
Original language name
Knowledge-Based Feature Extraction in Genomics
Original language description
Dimension reduction is the process of reducing the number of variables under consideration. In genomic classification it is widely applied because the high dimensionality of gene-expression data proved to decrease accuracy and comprehensibility of genomic classifiers. Simultaneously, contemporary genomics offers an opportunity to reach beyond the routine application of purely statistical dimension reduction techniques. Availability of a great variability of knowledge on gene roles, functions and gene-gene interactions allows to benefit from knowledge-based approaches to dimension reduction. This paper introduces and tests a feature-extraction algorithm that employs keywords affinity to define the gene similarity measure. This measure is used to form gene clusters whose medoids serve as new features. The features are of a reasonable number with statistically proven noise robustness and with anticipation of easy interpretability.
Czech name
Znalostmi řízená extrakce genomických rysů
Czech description
Redukce dimenze je proces snižování počtu uvažovaných proměných. V genomické klasifikaci je hojně používána, jelikož velká dimenzionalita dat genové exprese snižuje přesnost a srozumitelnost genomických klasifikátorů. Současná genomika nabízí možnosti přesahující rutinní aplikování čistě statistických technik redukce dimenze. Dostupnost velkého množství různorodých znalostí týkajících se genových rolí, funkcí a interakcí mezi geny umožňují využít výhody přístupů založených na apriorní znalosti při redukci dimenze. Tento článek představuje a testuje algoritmus extrakce rysů využívající spoluvýskyt klíčových slov k definování míry podobnosti genů. Tato míra je použita na tvorbu shluků genů, jejichž medoidy odpovídají novým rysům. Tak dostaneme rozumné množství rysů odolných vůči šumu, u kterých je předpokládána snadná interpretovatelnost.
Classification
Type
D - Article in proceedings
CEP classification
JC - Computer hardware and software
OECD FORD branch
—
Result continuities
Project
<a href="/en/project/1ET101210513" target="_blank" >1ET101210513: Relational machine learning for analysis of biomedical data</a><br>
Continuities
Z - Vyzkumny zamer (s odkazem do CEZ)
Others
Publication year
2009
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Article name in the collection
Znalosti 2009 - sborník příspěvků
ISBN
978-80-227-3015-0
ISSN
—
e-ISSN
—
Number of pages
12
Pages from-to
—
Publisher name
Vydavatel'stvo STU
Place of publication
Bratislava
Event location
Brno
Event date
Feb 4, 2009
Type of event by nationality
EUR - Evropská akce
UT code for WoS article
—