Deep Visual Representations of Unstructured Data
Project goals
This project aims at investigation and development of framework for instant transfer learning, where a generic pre-trained model of deep convolutional neural network (DCNN) is used as a universal feature extraction method for visualized unstructured data in many (non-visual) domains. The feature descriptors are then used in similarity search tasks (queries, joins) and in other parts of the data processing pipeline. The primary goal of this project is an alternative to the costly and long-lasting step of gathering domain-specific training data and subsequent model assembling and training. Instead, the investigated framework should enable practitioners to instantly use DCNN-based data representations in their new domains without the need of the costly step. The secondary goal of the project aims at developing a versatile metric for measuring quality of data visualization by use of the developed framework. As measuring the quality of data visualization is a difficult task in its complexity, such a metric would be a substantial contribution to the basic research in data visualization.
Keywords
unstructured data representationcontent-based retrievaldata visualizationdeep learningcomputer visionsimilarity searchvisualization quality
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
SGA0202200004
Main participants
Univerzita Karlova / Matematicko-fyzikální fakulta
Contest type
VS - Public tender
Contract ID
22-21696S
Alternative language
Project name in Czech
Hluboké vizuální reprezentace nestrukturovaných dat
Annotation in Czech
Předmětem projektu je výzkum a vývoj frameworku pro snadný transfer learning, kdy se obecně předtrénovaný model hluboké konvoluční neuronové sítě (DCNN) použije jako univerzální extraktor vlastností pro vizualizace z různých domén komplexních nestrukturovaných dat. Výsledné vyextrahované deskriptory jsou dále použitelné v návazných úlohách (např. podobnostní dotazování) a dalších fázích řetězce zpracování dat. Hlavním cílem projektu je vytvoření alternativního řešení ke klasickému schématu "drahé" tvorby dedikovaného DCNN modelu s použitím velkého množství trénovacích dat. Místo toho chceme navrhnout framework, který umožní doménovým expertům snadno použít existující předtrénované DCNN modely ve svých specifických doménách bez nutnosti náročného přetrénování. Dalším cílem projektu je pomocí zmíněného frameworku vyvinout doménově nezávislou metriku pro měření kvality datových vizualizací. Jednotná metoda pro stanovení kvality datových vizualizací v různých doménách představuje velmi složitý úkol, a proto taková metrika by byla velkým přínosem pro výzkum v oblasti vizualizace dat.
Scientific branches
R&D category
ZV - Basic research
OECD FORD - main branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - secondary branch
—
OECD FORD - another secondary branch
—
AF - Documentation, librarianship, work with information
BC - Theory and management systems
BD - Information theory
IN - Informatics
Solution timeline
Realization period - beginning
Jan 1, 2022
Realization period - end
Dec 31, 2024
Project status
—
Latest support payment
Feb 29, 2024
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP25-GA0-GA-R
Data delivery date
Mar 12, 2025
Finance
Total approved costs
8,553 thou. CZK
Public financial support
7,725 thou. CZK
Other public sources
828 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
8 553 CZK thou.
Public support
7 725 CZK thou.
90%
Provider
Czech Science Foundation
OECD FORD
Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Solution period
01. 01. 2022 - 31. 12. 2024