Syntactic Analysis of Czech Complex Sentences for Natural Language Processing
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
Standardní projekty 11 (SGA02008GA-ST)
Main participants
—
Contest type
VS - Public tender
Contract ID
405/08/0681
Alternative language
Project name in Czech
Syntaktická analýza souvětí pro počítačové zpracování češtiny
Annotation in Czech
Hlavním cílem projektu je vývoj a testování automatické metody pro odhad struktury českých souvětí, tedy odhad vzájemných syntaktických vztahů mezi klauzemi v souvětí na základě lingvistické evidence.Projekt se skládá z následujících dílčích úkolů:1. Vývoj formální teorie segmentů a segmentačních schémat;2. Sběr lingvistických dat a jejich klasifikace;3. Vývoj a implementace automatické procedury pro segmentaci souvětí;4. Výzkum formálního matematického modelu pro teorii segmentů;5. Návrh systému značekpro segmenty a návrh pravidel pro spojování segmentů do klauzí;6. Implementace automatické procedury pro spojování segmentů do klauzí;7. Příprava a modifikace dat Pražského závislostního korpusu pro získání testovacích dat;8. Vyhodnocení implementovaných procedur.Segmentace a následný odhad struktury klauzí v souvětí umožňují snížit složitost automatické syntaktické analýzy a tedy zvýšit úspěšnost syntaktických analyzátorů.
Scientific branches
R&D category
ZV - Basic research
CEP classification - main branch
AI - Linguistics
CEP - secondary branch
IN - Informatics
CEP - another secondary branch
—
OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Completed project evaluation
Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
The goals of the grant, namely the development and testing of automatic methods for identification of clause structure in Czech complex sentences on the basis of the linguistic evidence, have been fulfilled completely. A whole range of procedures for automatic identification of segments and clauses has been designed, implemented and evaluated in the frame of the project. A test set of high-qual
Solution timeline
Realization period - beginning
Apr 1, 2008
Realization period - end
Dec 31, 2010
Project status
U - Finished project
Latest support payment
Apr 16, 2010
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP11-GA0-GA-U/03:3
Data delivery date
Feb 9, 2015
Finance
Total approved costs
1,995 thou. CZK
Public financial support
1,995 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK