Complex prediction models and their learning from weakly annotated data
Project goals
Learning predictors from examples is a dominant sub-domain of machine learning which has been able to continuously contribute solutions to both natural science and very practical commercial problems. The predictors are not constructed manually but they are learned automatically from a training set of examples. The prevalent approach used nowadays are supervised methods which require a training set containing examples of input data annotated exactly by the desired outputs to be predicted. The exact annotation is typically created manually by human experts with a domain knowledge. As the size of data sets grows rapidly, the required human processing constitutes the major bottlenecks. This project aims at alleviating the problem by development of novel algorithms that are able to learn from weakly annotated data. We concentrate on complex structured prediction models where obtaining the exact annotation is especially complicated. On the other hand, acquisition of weak annotation is cheaper, and often it can be obtained by semi-automated processes requiring minimal human intervention.
Keywords
machine learningstructured output predictiongrammatical analysisstatistical consistency
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
Standardní projekty 23 (SGA0201900001)
Main participants
České vysoké učení technické v Praze / Fakulta elektrotechnická
Contest type
VS - Public tender
Contract ID
19-21198S
Alternative language
Project name in Czech
Složité predikční modely a jejich učení z částečně anotovaných dat
Annotation in Czech
Učení prediktorů z příkladů je významná oblast strojového učení, jež soustavně přispívá řešeními jak výzkumných tak i velmi prakticky zaměřených komerčních problémů. Prediktory nejsou konstruovány ručně, jsou učeny automaticky z trénovací množiny příkladů. V současnosti převládajícím přístupem jsou metody učení s učitelem, které vyžadují trénovací data anotovaná přesnými očekávanými výstupy. Takováto přesná anotace je obvykle vytvořena manuálně člověkem, který je odborníkem na danou doménu. Jelikož velikost používaných dat rapidně roste, jejich manuální zpracování představuje hlavní překážku. Předkládaný projekt se zaměřuje na řešení tohoto problému návrhem nových algoritmů, které jsou schopné učit prediktory z částečně anotovaných dat. Projekt se soustředí zejména na modely složitých prediktorů se strukturním výstupem, kde získání úplných anotací je extrémně komplikované, zatímco získání částečných anotací je relativně levné a mnohdy je realizovatelné poloautomatickými procesy vyžadujícími jen minimální asistenci člověka.
Scientific branches
R&D category
ZV - Basic research
OECD FORD - main branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - secondary branch
—
OECD FORD - another secondary branch
—
AF - Documentation, librarianship, work with information
BC - Theory and management systems
BD - Information theory
IN - Informatics
Completed project evaluation
Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
Although the quality of outputs was slightly more ambitious in the original project proposal, the project produced research on a solid international level and in the proposed direction.
Solution timeline
Realization period - beginning
Jan 1, 2019
Realization period - end
Jun 30, 2022
Project status
U - Finished project
Latest support payment
Apr 1, 2022
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP23-GA0-GA-U
Data delivery date
Jun 26, 2023
Finance
Total approved costs
4,052 thou. CZK
Public financial support
4,052 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
4 052 CZK thou.
Public support
4 052 CZK thou.
100%
Provider
Czech Science Foundation
OECD FORD
Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Solution period
01. 01. 2019 - 30. 06. 2022