Učení bez učitele nad heterogenními strukturovanými daty
Veřejná podpora
Poskytovatel
Grantová agentura České republiky
Program
Standardní projekty
Veřejná soutěž
SGA0202200004
Hlavní účastníci
České vysoké učení technické v Praze / Fakulta elektrotechnická
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
22-32620S
Alternativní jazyk
Název projektu anglicky
Unsupervised learning from heterogenous structured data
Anotace anglicky
Data records stored in the form of hierarchical structure of heterogenous records are commonly used in internet services (XML, JSON, etc. ), in finance applications, health records, and many other areas. Learning mathematical models of these data is often done indirectly via manually designed features. We have recently proposed a theoretically justified approach to learn a discriminative classifier using raw hierarchical data as its input. The methodology includes an explanation of its decision in terms of selecting the relevant subtree in the data. In this project, we propose to extend this methodology to unsupervised learning, which would allow addressing a much wider area of applications such as anomaly detection, clustering, or pre-training the models which proved its benefits in natural language processing. Specifically, we aim to investigate likelihood models, generative models, and proxy model probabilistic models of such data and validate algorithms in real-world datasets in computer security and fact-checking.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
OECD FORD - hlavní obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - vedlejší obor
—
OECD FORD - další vedlejší obor
—
CEP - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
AF - Dokumentace, knihovnictví, práce s informacemi<br>BC - Teorie a systémy řízení<br>BD - Teorie informace<br>IN - Informatika
Termíny řešení
Zahájení řešení
1. 1. 2022
Ukončení řešení
31. 12. 2024
Poslední stav řešení
K - Končící víceletý projekt
Poslední uvolnění podpory
2. 3. 2023
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP24-GA0-GA-R
Datum dodání záznamu
19. 2. 2024
Finance
Celkové uznané náklady
10 686 tis. Kč
Výše podpory ze státního rozpočtu
10 686 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč