Logic-based machine learning for genomic data analysis
Project goals
In the current raise of interest in the research on gene relationship discovery from gene expression data by means of machine learning and data mining, logic-based relational machine learning (LBRML) algorithms receive little or no attention, which contrasts with their successes in related biological applications, their strong theoretical foundations, the availability of a plethora of implementations, and mainly the understandability and direct biological interpretability of their outputs. Their littlepenetration is due to the fact that in comparison to statistical approaches currently favored in this application field, LBRML exhibits insufficient robustness agains data imperfection, inefficiency in the attribute-rich genetic domains and insufficientuncertainty modeling features. We will eliminate these algorithmic defficiencies by incorporating probabilistic inference/representation techniques into LBRML and demonstrate experimentally its power in the gene relationship discovery.
Keywords
machine learningknowledge discovery in databasesinductive logic programminggene expression data
Public support
Provider
Academy of Sciences of the Czech Republic
Programme
The research grant projects for juniors
Call for proposals
Juniorské badatelské grantové projekty 3 (SAV02005-J)
Main participants
—
Contest type
VS - Public tender
Contract ID
—
Alternative language
Project name in Czech
Logické strojové učení pro analýzu genomických dat
Annotation in Czech
V současné vlně zájmu o objevování souvislostí z dat genové exprese prostředky strojového učení (SU) a data miningu nemají algoritmy relačního strojového učení založeného na logice (RSUZL) téměř žádnou pozornost, což kontrastuje s jejich dobrými výsledkyv jiných biologických aplikacích, jejich silným teoretickým základům, dostupností implementací jejich rozmanitých algoritmů a zejm. srozumitelností jejich výstupů a možností je přímo biologicky interpretovat. Důvodem jejich nevyužití je, že oproti statistickým přístupům v této aplikační oblasti zatím preferovaným vykazují výše zmíněné algoritmy malou robustnost vůči chybám v datech, nízkou efektivitu v mnohaatributových genetických doménách a disponují nedostatečnými prostředky pro modelování neurčitosti. Tyto algoritmické nedostatky odstraníme implementací pravděpodobnostní inference a reprezentace do algoritmů RSUZL a experimentálně předvedeme jeho sílu v oblasti objevování souvislostí mezi geny.
Scientific branches
Completed project evaluation
Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
Existing algorithms of logic-based relational machine learning were enhanced and new algorithms were developed, both for the sake of discovering unknown biological principles, primarily from gene expression data measured by DNA chips.
Solution timeline
Realization period - beginning
Jan 1, 2005
Realization period - end
Jan 1, 2006
Project status
U - Finished project
Latest support payment
—
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP07-AV0-KJ-U/02:2
Data delivery date
Apr 3, 2009
Finance
Total approved costs
286 thou. CZK
Public financial support
286 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
286 CZK thou.
Public support
286 CZK thou.
100%
Provider
Academy of Sciences of the Czech Republic
CEP
IN - Informatics
Solution period
01. 01. 2005 - 01. 01. 2006