Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Odvození větné struktury bez anotovaných korpusů

Veřejná podpora

  • Poskytovatel

    Grantová agentura České republiky

  • Program

    Postdoktorandské granty

  • Veřejná soutěž

    Postdoktorandské granty 15 (SGA0201400003)

  • Hlavní účastníci

    Univerzita Karlova / Matematicko-fyzikální fakulta

  • Druh soutěže

    VS - Veřejná soutěž

  • Číslo smlouvy

    14-06548P

Alternativní jazyk

  • Název projektu anglicky

    Sentence structure induction without annotated corpora

  • Anotace anglicky

    Syntactic analysis of sentences is one of the fundamental problems of computational linguistics. At present, the use of supervised approaches that need a large number of syntactically annotated corpora (treebanks) to learn the syntax of language. The disadvantage is the financial and time demands of such a corpus and the need to create a new treebank for each additional language. In this project, we will work on an alternative method. The syntactic relations will be learned automatically from a text corpora with no linguistic annotation. These "unsupervised" methods have recently become very popular and it turns out that, for certain types of tasks, they are better than the supervised methods. Their advantage is their simplicity and their linguistic and domain independence. We will test the induced grammar models in applications where a simple n-gram models currently outperform the syntactic ones, for example in machine translation. Our hypothesis is that the syntactic models based solely on data and not on linguistic rules can improve the machine translation results.

Vědní obory

  • Kategorie VaV

    ZV - Základní výzkum

  • CEP - hlavní obor

    AI - Jazykověda

  • CEP - vedlejší obor

    IN - Informatika

  • CEP - další vedlejší obor

  • OECD FORD - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics

Hodnocení dokončeného projektu

  • Hodnocení poskytovatelem

    U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)

  • Zhodnocení výsledků projektu

    Všechny hlavní cíle projektu byly splněny. Byl vydán otevřený software LiStr obsahující nástroje pro neřízené odvození struktury vět. Zásadní jsou poznatky týkající se možností neřízeného parsingu včetně jeho využití ve strojovém překladu.

Termíny řešení

  • Zahájení řešení

    1. 1. 2014

  • Ukončení řešení

    31. 12. 2016

  • Poslední stav řešení

    U - Ukončený projekt

  • Poslední uvolnění podpory

    5. 4. 2016

Dodání dat do CEP

  • Důvěrnost údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Systémové označení dodávky dat

    CEP17-GA0-GP-U/01:1

  • Datum dodání záznamu

    30. 6. 2017

Finance

  • Celkové uznané náklady

    1 411 tis. Kč

  • Výše podpory ze státního rozpočtu

    1 411 tis. Kč

  • Ostatní veřejné zdroje financování

    0 tis. Kč

  • Neveřejné tuz. a zahr. zdroje finan.

    0 tis. Kč