All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Sentence structure induction without annotated corpora

Public support

  • Provider

    Czech Science Foundation

  • Programme

    Post-graduate (doctorate) grants

  • Call for proposals

    Postdoktorandské granty 15 (SGA0201400003)

  • Main participants

    Univerzita Karlova / Matematicko-fyzikální fakulta

  • Contest type

    VS - Public tender

  • Contract ID

    14-06548P

Alternative language

  • Project name in Czech

    Odvození větné struktury bez anotovaných korpusů

  • Annotation in Czech

    Syntaktická analýza věty je jedním ze základních problémů počítačové lingvistiky. V současnosti se využívá hlavě tzv. řízených přístupů, které potřebují k naučení syntaxe daného jazyka velké množství syntakticky anotovaných korpusů (treebanků). Nevýhodou je finanční a časová náročnost vytvoření takových korpusů a potřeba pro každý další jazyk vytvářet korpus nový. V tomto projektu se budeme zabývat alternativní metodou, a to učení se syntaktických vztahů automaticky z textových korpusů bez lingvistické anotace. Tyto "neřízené" metody jsou v poslední době velmi populární a ukazuje se, že pro některé typy úloh vhodnější, než metody řízené. Jejich výhodou je jednoduchost a jazyková a doménová nezávsilost. Odvozené modely gramatiky vyzkoušíme v aplikacích, ve kterých jednoduché n-gramové modely v současné době vítězí nad těmi syntaktickými. Takovou aplikací je například strojový překlad. Naše hypotéza je, že syntaktické modely založené pouze na datech a nikoli na lingvistických pravidlech mohou strojový překlad značně vylepšit.

Scientific branches

  • R&D category

    ZV - Basic research

  • CEP classification - main branch

    AI - Linguistics

  • CEP - secondary branch

    IN - Informatics

  • CEP - another secondary branch

  • OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics

Completed project evaluation

  • Provider evaluation

    U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)

  • Project results evaluation

    All main goals of the project proposal have been achieved. The open-source software toolkit LiStr containing tools for induction of both morphological and syntactic structures has been released. Among the most important findings are those regarding the possibilities of the unsupervised parsing including its use in machine translation.

Solution timeline

  • Realization period - beginning

    Jan 1, 2014

  • Realization period - end

    Dec 31, 2016

  • Project status

    U - Finished project

  • Latest support payment

    Apr 5, 2016

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP17-GA0-GP-U/01:1

  • Data delivery date

    Jun 30, 2017

Finance

  • Total approved costs

    1,411 thou. CZK

  • Public financial support

    1,411 thou. CZK

  • Other public sources

    0 thou. CZK

  • Non public and foreign sources

    0 thou. CZK