Struktura koreferenčních řetězců v paralelních jazykových datech
Veřejná podpora
Poskytovatel
Grantová agentura České republiky
Program
Standardní projekty
Veřejná soutěž
Standardní projekty 20 (SGA0201600001)
Hlavní účastníci
Univerzita Karlova / Matematicko-fyzikální fakulta
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
16-05394S
Alternativní jazyk
Název projektu anglicky
Structure of coreferential chains in parallel language data
Anotace anglicky
In this project, we focus on the ways how coreferential relations are realized in Czech in contrast to multiple languages. Coreference will be investigated in terms of expressions used for this purpose, their frequency and distribution. The nature of coreferential relations will be analyzed with respect to other linguistic aspects, e.g. tendency to use non-finite structures. Furthermore, we will perform several computational experiments employing the methods of coreference projection and bilingually-informed coreference resolution to measure how distant the languages are in terms of coreference and to support the findings of the theoretical analysis. The research will be carried out on multilingual parallel data that will be partially created within the project, including primarily Czech, English and Russian, with a possible extension to German and Polish. The key factor for such research on parallel data is the quality of word-alignment, which will be also addressed in this project.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
CEP - hlavní obor
AI - Jazykověda
CEP - vedlejší obor
—
CEP - další vedlejší obor
—
OECD FORD - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Hodnocení dokončeného projektu
Hodnocení poskytovatelem
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Zhodnocení výsledků projektu
Projekt přinesl cenná zjištění ohledně koreferenčních vazeb (zejména v češtině, ale v menší míře i v jiných jazycích) a jejich možného počítačového zpracování. Kvalita výsledných publikací je uspokojivá. Nejcennějším výsledkem je paralelní korpus s anotovanými koreferencemi.
Termíny řešení
Zahájení řešení
1. 1. 2016
Ukončení řešení
31. 12. 2018
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
26. 4. 2018
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP19-GA0-GA-U/01:1
Datum dodání záznamu
12. 6. 2019
Finance
Celkové uznané náklady
2 998 tis. Kč
Výše podpory ze státního rozpočtu
2 872 tis. Kč
Ostatní veřejné zdroje financování
126 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč