Vše
Vše

Co hledáte?

Vše
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Kontextové podobnostní vyhledávání v otevřených datech

Cíle projektu

V současnosti je na webu dostupné obrovské množství tzv. datasetů otevřených dat. V nich je nicméně pro uživatele obtížné vyhledávat i přes to, že datasety jsou registrovány v katalozích otevřených dat. V katalozích dostupná metadata nejsou dostatečně deskriptivní a přestože datasety přirozeně existují v různých kontextech, ty nejsou v katalozích zohledněny vůbec. Kontexty obsahují informace o vydavateli dat, legislativě spojené s vydáním datasetu, atd. Tento projekt si klade za cíl zlepšit metody vyhledávání v datasetech otevřených dat pomocí obohacení datasetů o jejich kontexty a pomocí metod podobnostního vyhledávání. Definujeme formální model reprezentace datasetů a jejich kontextů. Dále budeme vyvíjet metody podobnostního vyhledávání adaptované na specifika kontextů datasetů a zkombinujeme je do nových přístupů k podobnostnímu vyhledávání v datasetech otevřených dat. Všechny navržené metody a modely experimentálně ověříme na reálných datasetech z českého a evropského prostředí.

Klíčová slova

similarity searchdata analyticsopen dataRDFdatabaseinformation retrieval

Veřejná podpora

  • Poskytovatel

    Grantová agentura České republiky

  • Program

    Standardní projekty

  • Veřejná soutěž

    Standardní projekty 23 (SGA0201900001)

  • Hlavní účastníci

    Univerzita Karlova / Matematicko-fyzikální fakulta

  • Druh soutěže

    VS - Veřejná soutěž

  • Číslo smlouvy

    19-01641S

Alternativní jazyk

  • Název projektu anglicky

    Contextual Similarity Search in Open Data

  • Anotace anglicky

    There is a vast number of Open Data datasets published on the Web. However, it is currently challenging for consumers to find datasets relevant for their goals, even though they are registered in existing open data catalogues. The currently available metadata is not descriptive enough. At the same time, datasets exist in various types of contexts not expressed in the metadata. These include information about the data publisher, the legislation related to dataset publication, etc. In this project we aim at improving dataset search by enriching datasets with various dataset contexts and by using similarity techniques. We will define a formal model for representation of the datasets and the various kinds of dataset contexts. Then we will apply existing similarity techniques, adjust them as necessary to fit each identified dataset context type and combine them together to measure similarity of datasets in new ways. Finally, we will experimentally evaluate the impact of the proposed contexts and similarity techniques on datasets both from the Czech and the European environment.

Vědní obory

  • Kategorie VaV

    ZV - Základní výzkum

  • OECD FORD - hlavní obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

  • OECD FORD - vedlejší obor

  • OECD FORD - další vedlejší obor

  • CEP - odpovídající obory
    (dle převodníku)

    AF - Dokumentace, knihovnictví, práce s informacemi
    BC - Teorie a systémy řízení
    BD - Teorie informace
    IN - Informatika

Termíny řešení

  • Zahájení řešení

    1. 1. 2019

  • Ukončení řešení

    31. 12. 2023

  • Poslední stav řešení

  • Poslední uvolnění podpory

    12. 5. 2021

Dodání dat do CEP

  • Důvěrnost údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Systémové označení dodávky dat

    CEP22-GA0-GA-R

  • Datum dodání záznamu

    22. 2. 2022

Finance

  • Celkové uznané náklady

    7 661 tis. Kč

  • Výše podpory ze státního rozpočtu

    5 873 tis. Kč

  • Ostatní veřejné zdroje financování

    1 788 tis. Kč

  • Neveřejné tuz. a zahr. zdroje finan.

    0 tis. Kč

Základní informace

Uznané náklady

7 661 tis. Kč

Statní podpora

5 873 tis. Kč

76%


Poskytovatel

Grantová agentura České republiky

OECD FORD

Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Doba řešení

01. 01. 2019 - 31. 12. 2023