Structure of coreferential chains in parallel language data
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
Standardní projekty 20 (SGA0201600001)
Main participants
Univerzita Karlova / Matematicko-fyzikální fakulta
Contest type
VS - Public tender
Contract ID
16-05394S
Alternative language
Project name in Czech
Struktura koreferenčních řetězců v paralelních jazykových datech
Annotation in Czech
V tomto projektu se zaměříme na způsoby vyjádření koreferenčních vztahů v češtině ve srovnání s dalšími jazyky. Koreference bude zkoumána z hlediska použitých jazykových prostředků, jejich četnosti a distribuce. Základní vlastnosti koreferenčních vztahů budou analyzovány v souvislosti s dalšími jazykovými jevy, např. užívání nefinitních konstrukcí. Dále bude provedeno několik komputačních experimentů používajících metody projekce anotace a automatického určování koreference s využitím paralelních dat, což umožní vyhodnotit, jak vzdálené dané jazyky jsou ve smyslu koreference, a podpořit výsledky teoretické analýzy. Výzkum bude prováděn na vícejazykových paralelních datech, která budou zčásti vytvořena v rámci projektu a budou obsahovat především češtinu, angličtinu a ruštinu, s případným rozšířením na němčinu a polštinu. Zásadním faktorem pro takový výzkum na paralelních datech je kvalita párování slov mezi jazyky; i tomuto tématu se budeme v projektu věnovat.
Scientific branches
R&D category
ZV - Basic research
CEP classification - main branch
AI - Linguistics
CEP - secondary branch
—
CEP - another secondary branch
—
OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Completed project evaluation
Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
The project brought some valuable findings concerning coreferential links (in Czech, but to a lesser extent also in other languages) and possibilities of their computer processing. The quality of the resulting publications is satisfactory. The most valuable result is the parallel corpus with annotated coreferences.
Solution timeline
Realization period - beginning
Jan 1, 2016
Realization period - end
Dec 31, 2018
Project status
U - Finished project
Latest support payment
Apr 26, 2018
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP19-GA0-GA-U/01:1
Data delivery date
Jun 12, 2019
Finance
Total approved costs
2,998 thou. CZK
Public financial support
2,872 thou. CZK
Other public sources
126 thou. CZK
Non public and foreign sources
0 thou. CZK