Tools for Revision and Tectogrammatical Annotation of a Czech Dependency Treebank
Public support
Provider
Czech Science Foundation
Programme
Post-graduate (doctorate) grants
Call for proposals
Postdoktorandské granty 10 (SGA02010GA1PD)
Main participants
—
Contest type
VS - Public tender
Contract ID
P406-10-P193
Alternative language
Project name in Czech
Nástroje pro revizi a tektogramatickou anotaci českého závislostního korpusu
Annotation in Czech
Lingvistika jako empirická věda potřebuje materiál, který by mohla zkoumat. Významnou formou takového materiálu je v současnosti korpus, tj. rozsáhlý soubor textů v elektronické podobě, případně opatřený dalšími lingvistickými informacemi.Hlavním cílem projektu je vybudování nástrojů pro revizi přípravu takového korpusu s tektogramatickou anotací. Korektury textů a jejich následná anotace jsou časově velmi náročné, proto je nutné vyvinout nástroje, které tyto procesy v maximální možné míře urychlí a zefektivní. Jde např. o systém pro distribuci a archivaci dat, přizpůsobení anotačního nástroje nebo procedury pro automatickou detekci chyb. Nástroje bude možné použít jak k opravám Pražského závislostního korpusu, tak k vybudování paralelního česko-anglického závislostního korpusu.
Scientific branches
R&D category
ZV - Basic research
CEP classification - main branch
AI - Linguistics
CEP - secondary branch
—
CEP - another secondary branch
—
OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Completed project evaluation
Provider evaluation
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Project results evaluation
The project focused on possibilities of error detection in annotated linguistic corpora, from theory of the approach to software tools, by means of which it contributed substantially to the quality of the Prague Dependency Corpus (and other corpora in the world). The main result is thus a set of error detection software tools and a corrected corpus.
Solution timeline
Realization period - beginning
Jan 1, 2010
Realization period - end
Dec 31, 2012
Project status
U - Finished project
Latest support payment
Apr 1, 2012
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP13-GA0-GP-U/03:3
Data delivery date
May 2, 2016
Finance
Total approved costs
1,955 thou. CZK
Public financial support
1,955 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK