All
All

What are you looking for?

All
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Tectogrammatical Language Description for Speech Recognition and Machine Translation

Project goals

Formal language description is a necessary prerequisite for applications of computational linguistics, such as machine translation and speech recognition. Functional Generative Description, a dependency-based, fully formal stratificational language description framework, describes patterns of natural language usage that can be learned, both by linguists and under suitable circumstances also automatically by machines. It has been implemented in the Prague Dependency Treebank, a syntactically parsed corpus of Czech, which has three annotation levels: morphology, surface syntax and tectogrammatics. The tectogrammatical level ("deep" syntactic analysis, a language-specific transitional level between the language system and its semantics) constitutes the core of the implementation of FGD. The primary goal of this project is to compare the tectogrammatical description of Czech and English on both written and spoken data. We expect the multiligual application of tectogrammatical language description to

Keywords

languagetectogrammaticalsyntaxformalmachinetranslationspeechrecognition

Public support

  • Provider

    Czech Science Foundation

  • Programme

    Standard projects

  • Call for proposals

    Standardní projekty 9 (SGA02006GA-ST)

  • Main participants

  • Contest type

    VS - Public tender

  • Contract ID

    405/06/0589

Alternative language

  • Project name in Czech

    Tektogramatický popis jazyka pro rozpoznávání mluvené řeči a strojový překlad

  • Annotation in Czech

    Formální popis je nepostradatelnou součástí automatického zpracování přirozeného jazyka, např. strojového překladu a rozpoznávání mluvené řeči. Funkční generativní popis (FGP), plně formalizovaná závislostní stratifikační teorie popisu jazykových zákonitostí, je srozumitelná jak lingvistům, tak při vhodných podmínkách i strojům, takže je vhodná pro automatické strojové učení. Teorie již byla s úspěchem uplatněna při anotaci Pražského závislostního korpusu, syntakticky parsovaného korpusu českých textů,která má tři roviny: morfologickou, povrchově syntaktickou a tektogramatickou. Jádro FGP tvoří právě tektogramatická rovina ("hloubková" syntax, jazykově specifický přechod mezi jazykovým systémem a jeho sémantikou). Hlavním cílem tohoto projektu je porovnání tektogramatického popisu češtiny a angličtiny, a to nejen na psaných, ale i na mluvených datech. Očekáváme, že vícejazyčným uplatněním tektogramatického popisu zvýšíme přesnost a tedy kvalitu aplikací pro strojový překlad i pro rozpoznávání

Scientific branches

  • R&D category

    ZV - Basic research

  • CEP classification - main branch

    AI - Linguistics

  • CEP - secondary branch

    IN - Informatics

  • CEP - another secondary branch

  • 10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
    60201 - General language studies
    60202 - Specific languages
    60203 - Linguistics

Completed project evaluation

  • Provider evaluation

    U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)

  • Project results evaluation

    Within this project, a detailed specification of "tectogrammatical" (deep-syntactic) formal representation of English has been created. Using this specification, a corpus of 13,000 English sentences of the Penn Treebank-WSJ III has been annotated (and fu

Solution timeline

  • Realization period - beginning

    Jan 1, 2006

  • Realization period - end

    Dec 31, 2008

  • Project status

    U - Finished project

  • Latest support payment

    Apr 25, 2008

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP09-GA0-GA-U/02:2

  • Data delivery date

    Oct 22, 2009

Finance

  • Total approved costs

    3,723 thou. CZK

  • Public financial support

    3,723 thou. CZK

  • Other public sources

    0 thou. CZK

  • Non public and foreign sources

    0 thou. CZK

Basic information

Recognised costs

3 723 CZK thou.

Public support

3 723 CZK thou.

100%


Provider

Czech Science Foundation

CEP

AI - Linguistics

Solution period

01. 01. 2006 - 31. 12. 2008