Linguistic Structure Representation in Neural Networks

Project name in Czech
Reprezentace lingvistické struktury v neuronových sítích
Annotation in Czech
Během několika posledních let došlo v oblasti zpracování přirozeného jazyka (NLP) k velkému posunu. Původně zavedené statistické metody s lehce interpretovatelnými kroky často využívajícími lingvisticky anotované korpusy začaly být překonávány moderními metodami založenými na hlubokých neuronových sítích. Dnes tyto metody dominují ve většině zavedených úloh NLP, jako je strojový překlad, analýza sentimentu, titulkování obrázků, nebo rozpoznávání řeči. Neuronové sítě řešící tyto úlohy ale jen zřídka využívají lingvistických anotací. Cílem tohoto projektu je neuronové sítě analyzovat a popsat, jakým způsobem a co konkrétně se na jednotlivých NLP úlohách učí. Budeme v nich hledat jazykové rysy a struktury a porovnávat je s anotovanými korpusy nebo zavedenými lingvistickými teoriemi. Budeme se snažit odpovědět na otázky, jak neuronové sítě pracují s funkčními slovy, s negací, s pasivními konstrukcemi, jak jejich vnitřní reprezentace slov ve vektorovém prostoru odpovídá slovním druhům nebo morfologickým rysům, nebo jaké stromové reprezentace věty jsou vhodné pro jaké úlohy.

R&D category
ZV - Basic research
OECD FORD - main branch
60203 - Linguistics
OECD FORD - secondary branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - another secondary branch
—
CEP - equivalent branches (according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
AF - Documentation, librarianship, work with information AI - Linguistics BC - Theory and management systems BD - Information theory IN - Informatics

Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP21-GA0-GA-R/11:1
Data delivery date
Feb 22, 2021

Similar projects(10)