Linguistic Structure Representation in Neural Networks
Project goals
In the last few years, there has been a significant change in the area of natural language processing (NLP). The established statistical methods with easily interpretable steps often using linguistically annotated corpora were outperformed by modern methods based on deep neural networks. These methods now dominate in most of the established NLP tasks, such as machine translation, sentiment analysis, image captioning, or speech recognition. Neural networks solving these tasks very rarely use linguistic annotations. The aim of this project is to analyze and describe the neural networks, how and what specifically they learn in particular NLP tasks. We will search for language features and structures in them and compare them with annotated corpora or established linguistic theories. We will try to answer questions: how the neural networks deal with function words, with negation, with passives, how their internal word representation in vector space corresponds to part-of-speech tags or morphological features, or which tree representations of sentences fit best for given NLP tasks.
Keywords
sentence structurelinguistic featuresneural networksdeep learning
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
Standardní projekty 22 (SGA0201800001)
Main participants
Univerzita Karlova / Matematicko-fyzikální fakulta
Contest type
VS - Public tender
Contract ID
18-02196S
Alternative language
Project name in Czech
Reprezentace lingvistické struktury v neuronových sítích
Annotation in Czech
Během několika posledních let došlo v oblasti zpracování přirozeného jazyka (NLP) k velkému posunu. Původně zavedené statistické metody s lehce interpretovatelnými kroky často využívajícími lingvisticky anotované korpusy začaly být překonávány moderními metodami založenými na hlubokých neuronových sítích. Dnes tyto metody dominují ve většině zavedených úloh NLP, jako je strojový překlad, analýza sentimentu, titulkování obrázků, nebo rozpoznávání řeči. Neuronové sítě řešící tyto úlohy ale jen zřídka využívají lingvistických anotací. Cílem tohoto projektu je neuronové sítě analyzovat a popsat, jakým způsobem a co konkrétně se na jednotlivých NLP úlohách učí. Budeme v nich hledat jazykové rysy a struktury a porovnávat je s anotovanými korpusy nebo zavedenými lingvistickými teoriemi. Budeme se snažit odpovědět na otázky, jak neuronové sítě pracují s funkčními slovy, s negací, s pasivními konstrukcemi, jak jejich vnitřní reprezentace slov ve vektorovém prostoru odpovídá slovním druhům nebo morfologickým rysům, nebo jaké stromové reprezentace věty jsou vhodné pro jaké úlohy.
Scientific branches
R&D category
ZV - Basic research
OECD FORD - main branch
60203 - Linguistics
OECD FORD - secondary branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - another secondary branch
—
AF - Documentation, librarianship, work with information
AI - Linguistics
BC - Theory and management systems
BD - Information theory
IN - Informatics
Solution timeline
Realization period - beginning
Jan 1, 2018
Realization period - end
Dec 31, 2020
Project status
—
Latest support payment
Mar 25, 2020
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP21-GA0-GA-R/11:1
Data delivery date
Feb 22, 2021
Finance
Total approved costs
2,989 thou. CZK
Public financial support
2,577 thou. CZK
Other public sources
412 thou. CZK
Non public and foreign sources
0 thou. CZK
Recognised costs
2 989 CZK thou.
Public support
2 577 CZK thou.
0%
Provider
Czech Science Foundation
OECD FORD
Linguistics
Solution period
01. 01. 2018 - 31. 12. 2020