Morfologicky a syntakticky anotované korpusy mnoha jazyků
Veřejná podpora
Poskytovatel
Grantová agentura České republiky
Program
Standardní projekty
Veřejná soutěž
Standardní projekty 19 (SGA0201500001)
Hlavní účastníci
Univerzita Karlova / Matematicko-fyzikální fakulta
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
15-10472S
Alternativní jazyk
Název projektu anglicky
Morphologically and Syntactically Annotated Corpora of Many Languages
Anotace anglicky
Annotated corpora represent an important resource for a range of tasks in computational linguistics and computational processing of natural language. Such corpora are nowadays available for many languages, even though for some languages their size is rather limited. Unfortunately the corpora were developed by many different teams under varying conditions, and possibly with varying objectives. Mutually incompatible decisions taken during the design of the annotation guidelines make any cross-language comparison and multilingual processing difficult, if not impossible. This project focuses on 1. research of phenomena captured in existing treebanks of 30 different languages; 2. looking for a universally valid annotation for capturing these phenomena and 3. evaluation of suitability of alternative dependency structures for natural language processing, especially for dependency parsing. The results of the research will be summarized in a monograph.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
CEP - hlavní obor
AI - Jazykověda
CEP - vedlejší obor
JD - Využití počítačů, robotika a její aplikace
CEP - další vedlejší obor
—
OECD FORD - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
20204 - Robotics and automatic control<br>20205 - Automation and control systems<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Hodnocení dokončeného projektu
Hodnocení poskytovatelem
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Zhodnocení výsledků projektu
Projekt dokázal nad rámec svých původních cílů vytvořit instrukce pro morfologickou a syntaktickou anotaci, které lze použít pro více než 60 jazyků, a skutečně je na tyto jazyky i aplikoval, čímž vznikl mnohojazyčný korpus bezprecedentního rozsahu. Kromě toho dosáhl i cenných teoretických výsledků.
Termíny řešení
Zahájení řešení
1. 1. 2015
Ukončení řešení
25. 4. 2019
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
11. 4. 2017
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP20-GA0-GA-U/01:1
Datum dodání záznamu
2. 7. 2020
Finance
Celkové uznané náklady
3 382 tis. Kč
Výše podpory ze státního rozpočtu
3 382 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč