Kontextové podobnostní vyhledávání v otevřených datech
Cíle projektu
V současnosti je na webu dostupné obrovské množství tzv. datasetů otevřených dat. V nich je nicméně pro uživatele obtížné vyhledávat i přes to, že datasety jsou registrovány v katalozích otevřených dat. V katalozích dostupná metadata nejsou dostatečně deskriptivní a přestože datasety přirozeně existují v různých kontextech, ty nejsou v katalozích zohledněny vůbec. Kontexty obsahují informace o vydavateli dat, legislativě spojené s vydáním datasetu, atd. Tento projekt si klade za cíl zlepšit metody vyhledávání v datasetech otevřených dat pomocí obohacení datasetů o jejich kontexty a pomocí metod podobnostního vyhledávání. Definujeme formální model reprezentace datasetů a jejich kontextů. Dále budeme vyvíjet metody podobnostního vyhledávání adaptované na specifika kontextů datasetů a zkombinujeme je do nových přístupů k podobnostnímu vyhledávání v datasetech otevřených dat. Všechny navržené metody a modely experimentálně ověříme na reálných datasetech z českého a evropského prostředí.
Klíčová slova
similarity searchdata analyticsopen dataRDFdatabaseinformation retrieval
Veřejná podpora
Poskytovatel
Grantová agentura České republiky
Program
Standardní projekty
Veřejná soutěž
Standardní projekty 23 (SGA0201900001)
Hlavní účastníci
Univerzita Karlova / Matematicko-fyzikální fakulta
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
19-01641S
Alternativní jazyk
Název projektu anglicky
Contextual Similarity Search in Open Data
Anotace anglicky
There is a vast number of Open Data datasets published on the Web. However, it is currently challenging for consumers to find datasets relevant for their goals, even though they are registered in existing open data catalogues. The currently available metadata is not descriptive enough. At the same time, datasets exist in various types of contexts not expressed in the metadata. These include information about the data publisher, the legislation related to dataset publication, etc. In this project we aim at improving dataset search by enriching datasets with various dataset contexts and by using similarity techniques. We will define a formal model for representation of the datasets and the various kinds of dataset contexts. Then we will apply existing similarity techniques, adjust them as necessary to fit each identified dataset context type and combine them together to measure similarity of datasets in new ways. Finally, we will experimentally evaluate the impact of the proposed contexts and similarity techniques on datasets both from the Czech and the European environment.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
OECD FORD - hlavní obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - vedlejší obor
—
OECD FORD - další vedlejší obor
—
CEP - odpovídající obory
(dle převodníku)AF - Dokumentace, knihovnictví, práce s informacemi
BC - Teorie a systémy řízení
BD - Teorie informace
IN - Informatika
Termíny řešení
Zahájení řešení
1. 1. 2019
Ukončení řešení
31. 12. 2023
Poslední stav řešení
—
Poslední uvolnění podpory
12. 5. 2021
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP22-GA0-GA-R
Datum dodání záznamu
22. 2. 2022
Finance
Celkové uznané náklady
7 661 tis. Kč
Výše podpory ze státního rozpočtu
5 873 tis. Kč
Ostatní veřejné zdroje financování
1 788 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč
Základní informace
Uznané náklady
7 661 tis. Kč
Statní podpora
5 873 tis. Kč
76%
Poskytovatel
Grantová agentura České republiky
OECD FORD
Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Doba řešení
01. 01. 2019 - 31. 12. 2023