Sentence structure induction without annotated corpora
Public support
Provider
Czech Science Foundation
Programme
Post-graduate (doctorate) grants
Call for proposals
Postdoktorandské granty 15 (SGA0201400003)
Main participants
Univerzita Karlova / Matematicko-fyzikální fakulta
Contest type
VS - Public tender
Contract ID
14-06548P
Alternative language
Project name in Czech
Odvození větné struktury bez anotovaných korpusů
Annotation in Czech
Syntaktická analýza věty je jedním ze základních problémů počítačové lingvistiky. V současnosti se využívá hlavě tzv. řízených přístupů, které potřebují k naučení syntaxe daného jazyka velké množství syntakticky anotovaných korpusů (treebanků). Nevýhodou je finanční a časová náročnost vytvoření takových korpusů a potřeba pro každý další jazyk vytvářet korpus nový. V tomto projektu se budeme zabývat alternativní metodou, a to učení se syntaktických vztahů automaticky z textových korpusů bez lingvistické anotace. Tyto "neřízené" metody jsou v poslední době velmi populární a ukazuje se, že pro některé typy úloh vhodnější, než metody řízené. Jejich výhodou je jednoduchost a jazyková a doménová nezávsilost. Odvozené modely gramatiky vyzkoušíme v aplikacích, ve kterých jednoduché n-gramové modely v současné době vítězí nad těmi syntaktickými. Takovou aplikací je například strojový překlad. Naše hypotéza je, že syntaktické modely založené pouze na datech a nikoli na lingvistických pravidlech mohou strojový překlad značně vylepšit.
Scientific branches
R&D category
ZV - Basic research
CEP classification - main branch
AI - Linguistics
CEP - secondary branch
IN - Informatics
CEP - another secondary branch
—
OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Completed project evaluation
Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
All main goals of the project proposal have been achieved. The open-source software toolkit LiStr containing tools for induction of both morphological and syntactic structures has been released. Among the most important findings are those regarding the possibilities of the unsupervised parsing including its use in machine translation.
Solution timeline
Realization period - beginning
Jan 1, 2014
Realization period - end
Dec 31, 2016
Project status
U - Finished project
Latest support payment
Apr 5, 2016
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP17-GA0-GP-U/01:1
Data delivery date
Jun 30, 2017
Finance
Total approved costs
1,411 thou. CZK
Public financial support
1,411 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK