All
All

What are you looking for?

All
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”
LL2325

Engineering of Data Analysis Pipelines

Project goals

Computer science failed, as a discipline, at producing tools and methodologies that can be adopted by working data scientists. The goal of Ch-RiGiD is to identify some of the most impactful errors and to develop a methodology for rigorous engineering data analysis pipelines that can be adopted in practice. We aim to reduce the potential for errors and increase our confidence in results while retaining ease of use. Our approach is as follows: First, identify the problem by studying a large corpus of code used for data analysis. This phase of the project will contribute a classification of errors, as well as their frequencies and severity. We will develop novel program analysis techniques that blend static and dynamic analyses to account for the nature of the data science codes. Second, propose a methodology for developing data science applications that decreases errors and increases reproducibility and accountability. The outcomes here will be tools and techniques for improving the correctness of our target applications. Third, evaluate the proposal by conducting user studies. The contribution of this part of the project will be the deployment of our tools using automated techniques and the empirical evaluation of their efficacy.

Keywords

Data scienceProgram AnalysisVerificationTestingCompilersSoftware Engineering

Public support

  • Provider

    Ministry of Education, Youth and Sports

  • Programme

    ERC CZ

  • Call for proposals

    SMSM2023LL001

  • Main participants

    Univerzita Karlova / Matematicko-fyzikální fakulta

  • Contest type

    VS - Public tender

  • Contract ID

    MSMT-2853/2023

Alternative language

  • Project name in Czech

    Konstrukce kanálů pro analýzu dat

  • Annotation in Czech

    Počítačová věda jako disciplína selhala při vytváření nástrojů a metodologií, které mohou být přijaty vědci pracujícími na datech. Cílem Ch-RiGiD je identifikovat některé z nejzávažnějších chyb a vyvinout metodologii pro tvorbu rigorózních kanálů (pipelines) pro analýzu dat, která může být přijata v praxi. Naším cílem je snížit možnost vzniku chyb a zvýšit důvěru ve výsledky při zachování snadného použití. Náš přístup je následující: nejprve identifikujeme problém studiem velkého korpusu kódu používaného pro analýzu dat (tato fáze projektu přispěje ke klasifikaci chyb, jejich četnosti a závažnosti) a vyvineme nové techniky analýzy programů, které spojí statickou a dynamickou analýzu se zohledněním povahy kódu pro zpracování dat; dále navrhneme metodologii pro vývoj aplikací pro datovou vědu, která sníží počet chyb a zvýší spolehlivost a reprodukovatelnost (zde budou výstupem nástroje a techniky pro zlepšení správnosti našich cílových aplikací); a konečně vyhodnotíme návrh na uživatelských studiích (zde bude přínosem automatizované nasazení našich nástrojů a empirické vyhodnocení jejich účinnosti).

Scientific branches

  • R&D category

    ZV - Basic research

  • OECD FORD - main branch

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

  • OECD FORD - secondary branch

  • OECD FORD - another secondary branch

  • AF - Documentation, librarianship, work with information
    BC - Theory and management systems
    BD - Information theory
    IN - Informatics

Solution timeline

  • Realization period - beginning

    Sep 1, 2023

  • Realization period - end

    Aug 31, 2028

  • Project status

    B - Running multi-year project

  • Latest support payment

    Jan 11, 2024

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP25-MSM-LL-R

  • Data delivery date

    Feb 20, 2025

Finance

  • Total approved costs

    52,130 thou. CZK

  • Public financial support

    51,130 thou. CZK

  • Other public sources

    0 thou. CZK

  • Non public and foreign sources

    0 thou. CZK

Basic information

Recognised costs

52 130 CZK thou.

Public support

51 130 CZK thou.

98%


Provider

Ministry of Education, Youth and Sports

OECD FORD

Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Solution period

01. 09. 2023 - 31. 08. 2028