Tectogrammatical Language Description for Speech Recognition and Machine Translation
Project goals
Formal language description is a necessary prerequisite for applications of computational linguistics, such as machine translation and speech recognition. Functional Generative Description, a dependency-based, fully formal stratificational language description framework, describes patterns of natural language usage that can be learned, both by linguists and under suitable circumstances also automatically by machines. It has been implemented in the Prague Dependency Treebank, a syntactically parsed corpus of Czech, which has three annotation levels: morphology, surface syntax and tectogrammatics. The tectogrammatical level ("deep" syntactic analysis, a language-specific transitional level between the language system and its semantics) constitutes the core of the implementation of FGD. The primary goal of this project is to compare the tectogrammatical description of Czech and English on both written and spoken data. We expect the multiligual application of tectogrammatical language description to
Keywords
languagetectogrammaticalsyntaxformalmachinetranslationspeechrecognition
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
Standardní projekty 9 (SGA02006GA-ST)
Main participants
—
Contest type
VS - Public tender
Contract ID
405/06/0589
Alternative language
Project name in Czech
Tektogramatický popis jazyka pro rozpoznávání mluvené řeči a strojový překlad
Annotation in Czech
Formální popis je nepostradatelnou součástí automatického zpracování přirozeného jazyka, např. strojového překladu a rozpoznávání mluvené řeči. Funkční generativní popis (FGP), plně formalizovaná závislostní stratifikační teorie popisu jazykových zákonitostí, je srozumitelná jak lingvistům, tak při vhodných podmínkách i strojům, takže je vhodná pro automatické strojové učení. Teorie již byla s úspěchem uplatněna při anotaci Pražského závislostního korpusu, syntakticky parsovaného korpusu českých textů,která má tři roviny: morfologickou, povrchově syntaktickou a tektogramatickou. Jádro FGP tvoří právě tektogramatická rovina ("hloubková" syntax, jazykově specifický přechod mezi jazykovým systémem a jeho sémantikou). Hlavním cílem tohoto projektu je porovnání tektogramatického popisu češtiny a angličtiny, a to nejen na psaných, ale i na mluvených datech. Očekáváme, že vícejazyčným uplatněním tektogramatického popisu zvýšíme přesnost a tedy kvalitu aplikací pro strojový překlad i pro rozpoznávání
Scientific branches
R&D category
ZV - Basic research
CEP classification - main branch
AI - Linguistics
CEP - secondary branch
IN - Informatics
CEP - another secondary branch
—
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
60201 - General language studies
60202 - Specific languages
60203 - Linguistics
Completed project evaluation
Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
Within this project, a detailed specification of "tectogrammatical" (deep-syntactic) formal representation of English has been created. Using this specification, a corpus of 13,000 English sentences of the Penn Treebank-WSJ III has been annotated (and fu
Solution timeline
Realization period - beginning
Jan 1, 2006
Realization period - end
Dec 31, 2008
Project status
U - Finished project
Latest support payment
Apr 25, 2008
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP09-GA0-GA-U/02:2
Data delivery date
Oct 22, 2009
Finance
Total approved costs
3,723 thou. CZK
Public financial support
3,723 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
3 723 CZK thou.
Public support
3 723 CZK thou.
100%
Provider
Czech Science Foundation
CEP
AI - Linguistics
Solution period
01. 01. 2006 - 31. 12. 2008