Kontextové podobnostní vyhledávání v otevřených datech
Veřejná podpora
Poskytovatel
Grantová agentura České republiky
Program
Standardní projekty
Veřejná soutěž
Standardní projekty 23 (SGA0201900001)
Hlavní účastníci
Univerzita Karlova / Matematicko-fyzikální fakulta
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
19-01641S
Alternativní jazyk
Název projektu anglicky
Contextual Similarity Search in Open Data
Anotace anglicky
There is a vast number of Open Data datasets published on the Web. However, it is currently challenging for consumers to find datasets relevant for their goals, even though they are registered in existing open data catalogues. The currently available metadata is not descriptive enough. At the same time, datasets exist in various types of contexts not expressed in the metadata. These include information about the data publisher, the legislation related to dataset publication, etc. In this project we aim at improving dataset search by enriching datasets with various dataset contexts and by using similarity techniques. We will define a formal model for representation of the datasets and the various kinds of dataset contexts. Then we will apply existing similarity techniques, adjust them as necessary to fit each identified dataset context type and combine them together to measure similarity of datasets in new ways. Finally, we will experimentally evaluate the impact of the proposed contexts and similarity techniques on datasets both from the Czech and the European environment.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
OECD FORD - hlavní obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - vedlejší obor
—
OECD FORD - další vedlejší obor
—
CEP - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
AF - Dokumentace, knihovnictví, práce s informacemi<br>BC - Teorie a systémy řízení<br>BD - Teorie informace<br>IN - Informatika
Termíny řešení
Zahájení řešení
1. 1. 2019
Ukončení řešení
31. 12. 2023
Poslední stav řešení
—
Poslední uvolnění podpory
12. 5. 2021
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP22-GA0-GA-R
Datum dodání záznamu
22. 2. 2022
Finance
Celkové uznané náklady
7 661 tis. Kč
Výše podpory ze státního rozpočtu
5 873 tis. Kč
Ostatní veřejné zdroje financování
1 788 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč