Engineering of Data Analysis Pipelines
Project goals
Computer science failed, as a discipline, at producing tools and methodologies that can be adopted by working data scientists. The goal of Ch-RiGiD is to identify some of the most impactful errors and to develop a methodology for rigorous engineering data analysis pipelines that can be adopted in practice. We aim to reduce the potential for errors and increase our confidence in results while retaining ease of use. Our approach is as follows: First, identify the problem by studying a large corpus of code used for data analysis. This phase of the project will contribute a classification of errors, as well as their frequencies and severity. We will develop novel program analysis techniques that blend static and dynamic analyses to account for the nature of the data science codes. Second, propose a methodology for developing data science applications that decreases errors and increases reproducibility and accountability. The outcomes here will be tools and techniques for improving the correctness of our target applications. Third, evaluate the proposal by conducting user studies. The contribution of this part of the project will be the deployment of our tools using automated techniques and the empirical evaluation of their efficacy.
Keywords
Data scienceProgram AnalysisVerificationTestingCompilersSoftware Engineering
Public support
Provider
Ministry of Education, Youth and Sports
Programme
ERC CZ
Call for proposals
SMSM2023LL001
Main participants
Univerzita Karlova / Matematicko-fyzikální fakulta
Contest type
VS - Public tender
Contract ID
MSMT-2853/2023
Alternative language
Project name in Czech
Konstrukce kanálů pro analýzu dat
Annotation in Czech
Počítačová věda jako disciplína selhala při vytváření nástrojů a metodologií, které mohou být přijaty vědci pracujícími na datech. Cílem Ch-RiGiD je identifikovat některé z nejzávažnějších chyb a vyvinout metodologii pro tvorbu rigorózních kanálů (pipelines) pro analýzu dat, která může být přijata v praxi. Naším cílem je snížit možnost vzniku chyb a zvýšit důvěru ve výsledky při zachování snadného použití. Náš přístup je následující: nejprve identifikujeme problém studiem velkého korpusu kódu používaného pro analýzu dat (tato fáze projektu přispěje ke klasifikaci chyb, jejich četnosti a závažnosti) a vyvineme nové techniky analýzy programů, které spojí statickou a dynamickou analýzu se zohledněním povahy kódu pro zpracování dat; dále navrhneme metodologii pro vývoj aplikací pro datovou vědu, která sníží počet chyb a zvýší spolehlivost a reprodukovatelnost (zde budou výstupem nástroje a techniky pro zlepšení správnosti našich cílových aplikací); a konečně vyhodnotíme návrh na uživatelských studiích (zde bude přínosem automatizované nasazení našich nástrojů a empirické vyhodnocení jejich účinnosti).
Scientific branches
R&D category
ZV - Basic research
OECD FORD - main branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - secondary branch
—
OECD FORD - another secondary branch
—
AF - Documentation, librarianship, work with information
BC - Theory and management systems
BD - Information theory
IN - Informatics
Solution timeline
Realization period - beginning
Sep 1, 2023
Realization period - end
Aug 31, 2028
Project status
B - Running multi-year project
Latest support payment
Jan 11, 2024
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP25-MSM-LL-R
Data delivery date
Feb 20, 2025
Finance
Total approved costs
52,130 thou. CZK
Public financial support
51,130 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
52 130 CZK thou.
Public support
51 130 CZK thou.
98%
Provider
Ministry of Education, Youth and Sports
OECD FORD
Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Solution period
01. 09. 2023 - 31. 08. 2028