All
All

What are you looking for?

All
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Contextual Similarity Search in Open Data

Project goals

There is a vast number of Open Data datasets published on the Web. However, it is currently challenging for consumers to find datasets relevant for their goals, even though they are registered in existing open data catalogues. The currently available metadata is not descriptive enough. At the same time, datasets exist in various types of contexts not expressed in the metadata. These include information about the data publisher, the legislation related to dataset publication, etc. In this project we aim at improving dataset search by enriching datasets with various dataset contexts and by using similarity techniques. We will define a formal model for representation of the datasets and the various kinds of dataset contexts. Then we will apply existing similarity techniques, adjust them as necessary to fit each identified dataset context type and combine them together to measure similarity of datasets in new ways. Finally, we will experimentally evaluate the impact of the proposed contexts and similarity techniques on datasets both from the Czech and the European environment.

Keywords

similarity searchdata analyticsopen dataRDFdatabaseinformation retrieval

Public support

  • Provider

    Czech Science Foundation

  • Programme

    Standard projects

  • Call for proposals

    Standardní projekty 23 (SGA0201900001)

  • Main participants

    Univerzita Karlova / Matematicko-fyzikální fakulta

  • Contest type

    VS - Public tender

  • Contract ID

    19-01641S

Alternative language

  • Project name in Czech

    Kontextové podobnostní vyhledávání v otevřených datech

  • Annotation in Czech

    V současnosti je na webu dostupné obrovské množství tzv. datasetů otevřených dat. V nich je nicméně pro uživatele obtížné vyhledávat i přes to, že datasety jsou registrovány v katalozích otevřených dat. V katalozích dostupná metadata nejsou dostatečně deskriptivní a přestože datasety přirozeně existují v různých kontextech, ty nejsou v katalozích zohledněny vůbec. Kontexty obsahují informace o vydavateli dat, legislativě spojené s vydáním datasetu, atd. Tento projekt si klade za cíl zlepšit metody vyhledávání v datasetech otevřených dat pomocí obohacení datasetů o jejich kontexty a pomocí metod podobnostního vyhledávání. Definujeme formální model reprezentace datasetů a jejich kontextů. Dále budeme vyvíjet metody podobnostního vyhledávání adaptované na specifika kontextů datasetů a zkombinujeme je do nových přístupů k podobnostnímu vyhledávání v datasetech otevřených dat. Všechny navržené metody a modely experimentálně ověříme na reálných datasetech z českého a evropského prostředí.

Scientific branches

  • R&D category

    ZV - Basic research

  • OECD FORD - main branch

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

  • OECD FORD - secondary branch

  • OECD FORD - another secondary branch

  • AF - Documentation, librarianship, work with information
    BC - Theory and management systems
    BD - Information theory
    IN - Informatics

Solution timeline

  • Realization period - beginning

    Jan 1, 2019

  • Realization period - end

    Dec 31, 2023

  • Project status

  • Latest support payment

    May 12, 2021

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP22-GA0-GA-R

  • Data delivery date

    Feb 22, 2022

Finance

  • Total approved costs

    7,661 thou. CZK

  • Public financial support

    5,873 thou. CZK

  • Other public sources

    1,788 thou. CZK

  • Non public and foreign sources

    0 thou. CZK

Basic information

Recognised costs

7 661 CZK thou.

Public support

5 873 CZK thou.

76%


Provider

Czech Science Foundation

OECD FORD

Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Solution period

01. 01. 2019 - 31. 12. 2023