Treebank češtiny na základě gramatiky
Veřejná podpora
Poskytovatel
Grantová agentura České republiky
Program
Standardní projekty
Veřejná soutěž
Standardní projekty 17 (SGA0201300005)
Hlavní účastníci
Univerzita Karlova / Filozofická fakulta
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
13-27184S
Alternativní jazyk
Název projektu anglicky
Grammar-based treebank of Czech
Anotace anglicky
This natural language processing project focuses on the design and implementation of a formal grammar specifying surface syntax of Czech, and on a substantial improvement of a fully automatic parsing of Czech. By means of a group of improved software tools (morphological analyzer, programs for morphological disambiguation - taggers, parsers) a syntactic structure of an input Czech sentence is produced. It will be possible to visualize this core structure (e.g. as a dependency or constituent structure, in various degrees of underspecification etc.) and export it to diverse output formats as required by various syntactic theories. The grammar design and the software tools will be based on large textual sources - corpora of contemporary Czech available in the Czech National Corpus. These corpora will also be syntactically annotated by the software tools in accordance with the grammar and in this way large treebanks of Czech will be developed. The project is a follow-up of the current GACR project Syntactic Analysis of Czech Corpora.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
CEP - hlavní obor
AI - Jazykověda
CEP - vedlejší obor
—
CEP - další vedlejší obor
—
OECD FORD - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Hodnocení dokončeného projektu
Hodnocení poskytovatelem
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Zhodnocení výsledků projektu
Projekt zaměřený na vytvoření formální gramatiky zachycující povrchovou syntax češtiny probíhal v zásadě podle plánu, cíle byly splněny a publikovány ve formě 1 monografie, řady časopiseckých studií a konferenčních příspěvků; dále byl vytvořen syntakticky anotovaný korpus, který však zatím nebyl zveřejněn. Údaje poskytnuté řešitelem jsou relevantní, řešitelský tým dodržoval grantová pravidla.
Termíny řešení
Zahájení řešení
1. 2. 2013
Ukončení řešení
24. 11. 2016
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
1. 4. 2016
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP17-GA0-GA-U/03:1
Datum dodání záznamu
28. 6. 2017
Finance
Celkové uznané náklady
4 883 tis. Kč
Výše podpory ze státního rozpočtu
4 883 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč