Unsupervised learning from heterogenous structured data
Project goals
Data records stored in the form of hierarchical structure of heterogenous records are commonly used in internet services (XML, JSON, etc. ), in finance applications, health records, and many other areas. Learning mathematical models of these data is often done indirectly via manually designed features. We have recently proposed a theoretically justified approach to learn a discriminative classifier using raw hierarchical data as its input. The methodology includes an explanation of its decision in terms of selecting the relevant subtree in the data. In this project, we propose to extend this methodology to unsupervised learning, which would allow addressing a much wider area of applications such as anomaly detection, clustering, or pre-training the models which proved its benefits in natural language processing. Specifically, we aim to investigate likelihood models, generative models, and proxy model probabilistic models of such data and validate algorithms in real-world datasets in computer security and fact-checking.
Keywords
Unsupervised learningstructured datamachine learningexplainability
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
SGA0202200004
Main participants
České vysoké učení technické v Praze / Fakulta elektrotechnická
Contest type
VS - Public tender
Contract ID
22-32620S
Alternative language
Project name in Czech
Učení bez učitele nad heterogenními strukturovanými daty
Annotation in Czech
Informace uložené ve formě hierarchické struktury heterogenních záznamů jsou běžně používány v internetových službách (XML, JSON, etc.), ve finančnictví, zdravotnictví a jiných oblastech. Učení matematických modelů těchto dat je často nepřímé, založené na manuálně navržených příznacích. Nedávno jsme navrhli teoreticky podloženou metodu učení diskriminativního klasifikátoru do nějž vstupují přímo surová hierarchická data. Tato metodologie umožňuje vysvětlit rozhodnutí modelu pomocí podvýběru dat, které jsou za rozhodnutí zodpovědné. V rámci předloženého projektu navrhujeme rozříření této metodologie pro učení bez učitele. Metody učení bez učitele jsou použitelné na mnohem větší škálu aplikací, zahrnující detekci anomálií, shlukování nebo předtrénování, které zásadně změnilo oblast zpracování přirozeného jazyka. Konkrétně navrhujeme vyvinout věrohodnostní, generativní a approximativní pravděpodobnostní modely těchto dat a ověřit algoritmy na reálných datech z oblasti počítačové bezpečnosti a ověřování pravdivosti zpráv.
Scientific branches
R&D category
ZV - Basic research
OECD FORD - main branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - secondary branch
—
OECD FORD - another secondary branch
—
AF - Documentation, librarianship, work with information
BC - Theory and management systems
BD - Information theory
IN - Informatics
Solution timeline
Realization period - beginning
Jan 1, 2022
Realization period - end
Dec 31, 2024
Project status
—
Latest support payment
Feb 29, 2024
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP25-GA0-GA-R
Data delivery date
Mar 12, 2025
Finance
Total approved costs
10,763 thou. CZK
Public financial support
10,763 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK
Recognised costs
10 763 CZK thou.
Public support
10 763 CZK thou.
0%
Provider
Czech Science Foundation
OECD FORD
Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Solution period
01. 01. 2022 - 31. 12. 2024