Syntaktická anotace českých korpusů
Veřejná podpora
Poskytovatel
Grantová agentura České republiky
Program
Standardní projekty
Veřejná soutěž
Standardní projekty 13 (SGA02010GA-ST)
Hlavní účastníci
—
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
P406-10-0434
Alternativní jazyk
Název projektu anglicky
Syntactic annotation of Czech corpora
Anotace anglicky
The project's aim is to create a set of tools for syntactic annotation of Czech text corpora. Currently, there exist tools for morphological tagging, which were already used for tagging the Czech National Corpus. There are also several systems for syntactic analysis of Czech, but they are heavily dependent on the underlying syntactic theory, and thus their results are not suitable for the purpose of tagging corpora aimed at the general public. Moreover, their success rate is not high enough for fully automatic processing of texts. The proposed project will exploit all of the abovementioned tools. After converting the results to a format that will be syntactically more neutral, we expect a lower error ratio. Furthermore, we will also create a set of tools for error correction and then we will annotate an experimental corpus of the size of ca 1 million words.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
CEP - hlavní obor
AI - Jazykověda
CEP - vedlejší obor
—
CEP - další vedlejší obor
—
OECD FORD - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Hodnocení dokončeného projektu
Hodnocení poskytovatelem
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Zhodnocení výsledků projektu
Projekt dosáhl svého odborného cíle, jímž bylo vyvinout metodu pro velmi přesné značkování českých korpusů.
Termíny řešení
Zahájení řešení
1. 1. 2010
Ukončení řešení
31. 12. 2012
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
1. 4. 2012
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP13-GA0-GA-U/02:3
Datum dodání záznamu
17. 5. 2016
Finance
Celkové uznané náklady
5 497 tis. Kč
Výše podpory ze státního rozpočtu
5 497 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč