Foundations of Similarity-Based Data Processing
Project goals
Proposed is a generalized model of relational data in presence of imprecision that creates a suitable framework for dealing with phenomena like similarity-based queries, approximate dependencies in data, and processing imprecise information. The researchis motivated by the lack of and demand for rigorous and intelligent methods for information processing that reflect the very nature of human understanding of similarity of values of various types. The proposed theory can be seen as an extension of Codd's model of data by introducing tuple ranks and similarities on domains. The extended model remains purely relational as we base the theory on logical concepts borrowed from multiple-valued logics and order theory. The goals of the proposed work include discovering new types of data dependencies, formalization of similarity-based queries, exploring algorithmic and computational issues of the model, establishing links to generalized logic programming, and providing a novel approach to relational data management and analysis. Future applications of the theory are highly anticipated.
Keywords
similaritydatabasesystemsinformationretrievalprocessingfuzzylogicdatadependencies
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
Standardní projekty 14 (SGA02011GA-ST)
Main participants
—
Contest type
VS - Public tender
Contract ID
P103-11-1456
Alternative language
Project name in Czech
Základy pro zpracování dat s využitím podobností
Annotation in Czech
Navržený projekt se zabývá obecným relačním modelem dat v prostředí neurčitosti. Tento model vytváří vhodný prostředek pro práci s pojmy jako jsou podobnostní dotazy, přibližné závislosti v datech a zpracování nepřesné informace. V současnosti jsou tytoa podobné fenomény středem pozornosti, pro jejich plnohodnotné využití však chybí vhodný formální aparát. Navržený projekt se snaží takový aparát vybudovat. Na navrženou teorii lze pohlížet jako na zobecnění Coddova relačního modelu dat, ve kterém jsou datové tabulky obohaceny o ranky řádků a podobnosti na doménách. Model je založen na vícehodnotových logikách a teorii uspořádání což mimo jiné zaručuje řadu výhodných vlastností, rozšířený model dat například zůstává i nadále čistě relační. Mezi cíle projektu patří zkoumat nové typy závislostí mezi daty, formalizovat podobnostní dotazy a analyzovat jejich výpočetní složitost, zkoumat vztah k zobecněnému logickému programování a položit základy novému, kvalitativně jinému, přístupu k analýze relačních dat. Lze očekávat, že teoretické výsledky projektu naleznou v budoucnu další využití.
Scientific branches
R&D category
ZV - Basic research
CEP classification - main branch
IN - Informatics
CEP - secondary branch
JD - Use of computers, robotics and its application
CEP - another secondary branch
—
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
20204 - Robotics and automatic control
20205 - Automation and control systems
Completed project evaluation
Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
Extensions to relational data model including raking and domain similarity are results of this project. They were published in 1 impacted journal and 8 conference papers. Outstanding results are papers in IEEE ICDM (CORE A*) a ACM SAC (CORE B).
Solution timeline
Realization period - beginning
Jan 1, 2011
Realization period - end
Dec 31, 2013
Project status
U - Finished project
Latest support payment
Jun 7, 2013
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP14-GA0-GA-U/01:1
Data delivery date
Jul 1, 2014
Finance
Total approved costs
1,893 thou. CZK
Public financial support
1,893 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
1 893 CZK thou.
Public support
1 893 CZK thou.
100%
Provider
Czech Science Foundation
CEP
IN - Informatics
Solution period
01. 01. 2011 - 31. 12. 2013