Tectogrammatical Language Description for Speech Recognition and Machine Translation
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
Standardní projekty 9 (SGA02006GA-ST)
Main participants
—
Contest type
VS - Public tender
Contract ID
405/06/0589
Alternative language
Project name in Czech
Tektogramatický popis jazyka pro rozpoznávání mluvené řeči a strojový překlad
Annotation in Czech
Formální popis je nepostradatelnou součástí automatického zpracování přirozeného jazyka, např. strojového překladu a rozpoznávání mluvené řeči. Funkční generativní popis (FGP), plně formalizovaná závislostní stratifikační teorie popisu jazykových zákonitostí, je srozumitelná jak lingvistům, tak při vhodných podmínkách i strojům, takže je vhodná pro automatické strojové učení. Teorie již byla s úspěchem uplatněna při anotaci Pražského závislostního korpusu, syntakticky parsovaného korpusu českých textů,která má tři roviny: morfologickou, povrchově syntaktickou a tektogramatickou. Jádro FGP tvoří právě tektogramatická rovina ("hloubková" syntax, jazykově specifický přechod mezi jazykovým systémem a jeho sémantikou). Hlavním cílem tohoto projektu je porovnání tektogramatického popisu češtiny a angličtiny, a to nejen na psaných, ale i na mluvených datech. Očekáváme, že vícejazyčným uplatněním tektogramatického popisu zvýšíme přesnost a tedy kvalitu aplikací pro strojový překlad i pro rozpoznávání
Scientific branches
R&D category
ZV - Basic research
CEP classification - main branch
AI - Linguistics
CEP - secondary branch
IN - Informatics
CEP - another secondary branch
—
OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Completed project evaluation
Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
Within this project, a detailed specification of "tectogrammatical" (deep-syntactic) formal representation of English has been created. Using this specification, a corpus of 13,000 English sentences of the Penn Treebank-WSJ III has been annotated (and fu
Solution timeline
Realization period - beginning
Jan 1, 2006
Realization period - end
Dec 31, 2008
Project status
U - Finished project
Latest support payment
Apr 25, 2008
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP09-GA0-GA-U/02:2
Data delivery date
Oct 22, 2009
Finance
Total approved costs
3,723 thou. CZK
Public financial support
3,723 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK