All
All

What are you looking for?

All
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Unsupervised learning from heterogenous structured data

Project goals

Data records stored in the form of hierarchical structure of heterogenous records are commonly used in internet services (XML, JSON, etc. ), in finance applications, health records, and many other areas. Learning mathematical models of these data is often done indirectly via manually designed features. We have recently proposed a theoretically justified approach to learn a discriminative classifier using raw hierarchical data as its input. The methodology includes an explanation of its decision in terms of selecting the relevant subtree in the data. In this project, we propose to extend this methodology to unsupervised learning, which would allow addressing a much wider area of applications such as anomaly detection, clustering, or pre-training the models which proved its benefits in natural language processing. Specifically, we aim to investigate likelihood models, generative models, and proxy model probabilistic models of such data and validate algorithms in real-world datasets in computer security and fact-checking.

Keywords

Unsupervised learningstructured datamachine learningexplainability

Public support

  • Provider

    Czech Science Foundation

  • Programme

    Standard projects

  • Call for proposals

    SGA0202200004

  • Main participants

    České vysoké učení technické v Praze / Fakulta elektrotechnická

  • Contest type

    VS - Public tender

  • Contract ID

    22-32620S

Alternative language

  • Project name in Czech

    Učení bez učitele nad heterogenními strukturovanými daty

  • Annotation in Czech

    Informace uložené ve formě hierarchické struktury heterogenních záznamů jsou běžně používány v internetových službách (XML, JSON, etc.), ve finančnictví, zdravotnictví a jiných oblastech. Učení matematických modelů těchto dat je často nepřímé, založené na manuálně navržených příznacích. Nedávno jsme navrhli teoreticky podloženou metodu učení diskriminativního klasifikátoru do nějž vstupují přímo surová hierarchická data. Tato metodologie umožňuje vysvětlit rozhodnutí modelu pomocí podvýběru dat, které jsou za rozhodnutí zodpovědné. V rámci předloženého projektu navrhujeme rozříření této metodologie pro učení bez učitele. Metody učení bez učitele jsou použitelné na mnohem větší škálu aplikací, zahrnující detekci anomálií, shlukování nebo předtrénování, které zásadně změnilo oblast zpracování přirozeného jazyka. Konkrétně navrhujeme vyvinout věrohodnostní, generativní a approximativní pravděpodobnostní modely těchto dat a ověřit algoritmy na reálných datech z oblasti počítačové bezpečnosti a ověřování pravdivosti zpráv.

Scientific branches

  • R&D category

    ZV - Basic research

  • OECD FORD - main branch

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

  • OECD FORD - secondary branch

  • OECD FORD - another secondary branch

  • AF - Documentation, librarianship, work with information
    BC - Theory and management systems
    BD - Information theory
    IN - Informatics

Solution timeline

  • Realization period - beginning

    Jan 1, 2022

  • Realization period - end

    Dec 31, 2024

  • Project status

  • Latest support payment

    Feb 29, 2024

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP25-GA0-GA-R

  • Data delivery date

    Mar 12, 2025

Finance

  • Total approved costs

    10,763 thou. CZK

  • Public financial support

    10,763 thou. CZK

  • Other public sources

    0 thou. CZK

  • Non public and foreign sources

    0 thou. CZK

Recognised costs

10 763 CZK thou.

Public support

10 763 CZK thou.

0%


Provider

Czech Science Foundation

OECD FORD

Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Solution period

01. 01. 2022 - 31. 12. 2024