Reprezentace lingvistické struktury v neuronových sítích
Veřejná podpora
Poskytovatel
Grantová agentura České republiky
Program
Standardní projekty
Veřejná soutěž
Standardní projekty 22 (SGA0201800001)
Hlavní účastníci
Univerzita Karlova / Matematicko-fyzikální fakulta
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
18-02196S
Alternativní jazyk
Název projektu anglicky
Linguistic Structure Representation in Neural Networks
Anotace anglicky
In the last few years, there has been a significant change in the area of natural language processing (NLP). The established statistical methods with easily interpretable steps often using linguistically annotated corpora were outperformed by modern methods based on deep neural networks. These methods now dominate in most of the established NLP tasks, such as machine translation, sentiment analysis, image captioning, or speech recognition. Neural networks solving these tasks very rarely use linguistic annotations. The aim of this project is to analyze and describe the neural networks, how and what specifically they learn in particular NLP tasks. We will search for language features and structures in them and compare them with annotated corpora or established linguistic theories. We will try to answer questions: how the neural networks deal with function words, with negation, with passives, how their internal word representation in vector space corresponds to part-of-speech tags or morphological features, or which tree representations of sentences fit best for given NLP tasks.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
OECD FORD - hlavní obor
60203 - Linguistics
OECD FORD - vedlejší obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - další vedlejší obor
—
CEP - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
AF - Dokumentace, knihovnictví, práce s informacemi<br>AI - Jazykověda<br>BC - Teorie a systémy řízení<br>BD - Teorie informace<br>IN - Informatika
Termíny řešení
Zahájení řešení
1. 1. 2018
Ukončení řešení
31. 12. 2020
Poslední stav řešení
—
Poslední uvolnění podpory
25. 3. 2020
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP21-GA0-GA-R/11:1
Datum dodání záznamu
22. 2. 2021
Finance
Celkové uznané náklady
2 989 tis. Kč
Výše podpory ze státního rozpočtu
2 577 tis. Kč
Ostatní veřejné zdroje financování
412 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč