Contextual Similarity Search in Open Data
Project goals
There is a vast number of Open Data datasets published on the Web. However, it is currently challenging for consumers to find datasets relevant for their goals, even though they are registered in existing open data catalogues. The currently available metadata is not descriptive enough. At the same time, datasets exist in various types of contexts not expressed in the metadata. These include information about the data publisher, the legislation related to dataset publication, etc. In this project we aim at improving dataset search by enriching datasets with various dataset contexts and by using similarity techniques. We will define a formal model for representation of the datasets and the various kinds of dataset contexts. Then we will apply existing similarity techniques, adjust them as necessary to fit each identified dataset context type and combine them together to measure similarity of datasets in new ways. Finally, we will experimentally evaluate the impact of the proposed contexts and similarity techniques on datasets both from the Czech and the European environment.
Keywords
similarity searchdata analyticsopen dataRDFdatabaseinformation retrieval
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
Standardní projekty 23 (SGA0201900001)
Main participants
Univerzita Karlova / Matematicko-fyzikální fakulta
Contest type
VS - Public tender
Contract ID
19-01641S
Alternative language
Project name in Czech
Kontextové podobnostní vyhledávání v otevřených datech
Annotation in Czech
V současnosti je na webu dostupné obrovské množství tzv. datasetů otevřených dat. V nich je nicméně pro uživatele obtížné vyhledávat i přes to, že datasety jsou registrovány v katalozích otevřených dat. V katalozích dostupná metadata nejsou dostatečně deskriptivní a přestože datasety přirozeně existují v různých kontextech, ty nejsou v katalozích zohledněny vůbec. Kontexty obsahují informace o vydavateli dat, legislativě spojené s vydáním datasetu, atd. Tento projekt si klade za cíl zlepšit metody vyhledávání v datasetech otevřených dat pomocí obohacení datasetů o jejich kontexty a pomocí metod podobnostního vyhledávání. Definujeme formální model reprezentace datasetů a jejich kontextů. Dále budeme vyvíjet metody podobnostního vyhledávání adaptované na specifika kontextů datasetů a zkombinujeme je do nových přístupů k podobnostnímu vyhledávání v datasetech otevřených dat. Všechny navržené metody a modely experimentálně ověříme na reálných datasetech z českého a evropského prostředí.
Scientific branches
R&D category
ZV - Basic research
OECD FORD - main branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - secondary branch
—
OECD FORD - another secondary branch
—
AF - Documentation, librarianship, work with information
BC - Theory and management systems
BD - Information theory
IN - Informatics
Solution timeline
Realization period - beginning
Jan 1, 2019
Realization period - end
Dec 31, 2023
Project status
—
Latest support payment
May 12, 2021
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP22-GA0-GA-R
Data delivery date
Feb 22, 2022
Finance
Total approved costs
7,661 thou. CZK
Public financial support
5,873 thou. CZK
Other public sources
1,788 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
7 661 CZK thou.
Public support
5 873 CZK thou.
76%
Provider
Czech Science Foundation
OECD FORD
Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Solution period
01. 01. 2019 - 31. 12. 2023