Vícejazyčná korpusová anotace jako podpora jazykových technologií
Veřejná podpora
Poskytovatel
Ministerstvo školství, mládeže a tělovýchovy
Program
KONTAKT II
Veřejná soutěž
KONTAKT II 4 (SMSM2014LH4)
Hlavní účastníci
Univerzita Karlova / Matematicko-fyzikální fakulta
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
MSMT-9919/2014-1
Alternativní jazyk
Název projektu anglicky
Multilingual Corpus Annotation as a Support for Language Technologies
Anotace anglicky
The aim of the project is to analyze textual (inter-sentential) relations in a large corpus of texts and to propose, implement and experimentally evaluate an annotation scheme covering: relations of coreference and association anaphora, further textual relations expressed by more complex means than discourse connectives (the so-called alternative lexicalizations) and to follow genre differences in the corpus texts. In cooperation with the US partner, a contrastive study will be carried out comparing therealization of these phenomena in Czech and in English. Other component of the project will contain experiments on the basis of the proposed schemes and their evaluation by means of methods standard in computational linguistics and, also, experiments with automatic identification of relations within weakly coherent texts.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
CEP - hlavní obor
AI - Jazykověda
CEP - vedlejší obor
IN - Informatika
CEP - další vedlejší obor
—
OECD FORD - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Hodnocení dokončeného projektu
Hodnocení poskytovatelem
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Zhodnocení výsledků projektu
V roce 2015 byla v projektu vydána data s anotací alternativních lexikálních prostředků pro vyjádření textových vztahů (např. důvodem bylo apod.; The Prague Discourse Treebank 2.0). Proběhl výzkum implicitních vztahů, koreferenčních vztahů a asociační anafory v češtině a angličtině. Konal se také česko-americký workshop vztahující se k projektu. Výsledky byly publikovány odborných periodicích.
Termíny řešení
Zahájení řešení
1. 4. 2014
Ukončení řešení
31. 12. 2016
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
18. 2. 2016
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP17-MSM-LH-U/01:1
Datum dodání záznamu
23. 6. 2017
Finance
Celkové uznané náklady
1 583 tis. Kč
Výše podpory ze státního rozpočtu
1 583 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč