Sentence structure induction without annotated corpora

Project name in Czech
Odvození větné struktury bez anotovaných korpusů
Annotation in Czech
Syntaktická analýza věty je jedním ze základních problémů počítačové lingvistiky. V současnosti se využívá hlavě tzv. řízených přístupů, které potřebují k naučení syntaxe daného jazyka velké množství syntakticky anotovaných korpusů (treebanků). Nevýhodou je finanční a časová náročnost vytvoření takových korpusů a potřeba pro každý další jazyk vytvářet korpus nový. V tomto projektu se budeme zabývat alternativní metodou, a to učení se syntaktických vztahů automaticky z textových korpusů bez lingvistické anotace. Tyto "neřízené" metody jsou v poslední době velmi populární a ukazuje se, že pro některé typy úloh vhodnější, než metody řízené. Jejich výhodou je jednoduchost a jazyková a doménová nezávsilost. Odvozené modely gramatiky vyzkoušíme v aplikacích, ve kterých jednoduché n-gramové modely v současné době vítězí nad těmi syntaktickými. Takovou aplikací je například strojový překlad. Naše hypotéza je, že syntaktické modely založené pouze na datech a nikoli na lingvistických pravidlech mohou strojový překlad značně vylepšit.

R&D category
ZV - Basic research
CEP classification - main branch
AI - Linguistics
CEP - secondary branch
IN - Informatics
CEP - another secondary branch
—
OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics

Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
All main goals of the project proposal have been achieved. The open-source software toolkit LiStr containing tools for induction of both morphological and syntactic structures has been released. Among the most important findings are those regarding the possibilities of the unsupervised parsing including its use in machine translation.

Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP17-GA0-GP-U/01:1
Data delivery date
Jun 30, 2017

Similar projects(10)