Morphologically and Syntactically Annotated Corpora of Many Languages
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
Standardní projekty 19 (SGA0201500001)
Main participants
Univerzita Karlova / Matematicko-fyzikální fakulta
Contest type
VS - Public tender
Contract ID
15-10472S
Alternative language
Project name in Czech
Morfologicky a syntakticky anotované korpusy mnoha jazyků
Annotation in Czech
Anotované korpusy představují důležitý zdroj dat pro řadu úloh počítačové lingvistiky i počítačového zpracování přirozeného jazyka. Dnes už jsou k dispozici pro celou řadu jazyků, byť pro některé jazyky jen v malém množství. Bohužel tyto korpusy byly vyvíjeny mnoha různými týmy za rozdílných podmínek, případně i s odlišnými cíli. Vzájemně neslučitelná rozhodnutí učiněná při návrhu anotačních schémat velmi komplikují až znemožňují jakákoli mezijazyková srovnání nebo zpracování vícejazyčných dat. Tento projekt se zaměřuje na 1. zkoumání jevů zachycených v existujících korpusech pro 30 různých jazyků; 2. hledání univerzálně použitelné anotace pro jednotné zachycení všech těchto jevů a 3. posouzení vhodnosti alternativních závislostních struktur pro počítačové zpracování přirozených jazyků, zejména pro syntaktickou analýzu (parsing). Výsledky výzkumu budou shrnuty v monografii.
Scientific branches
R&D category
ZV - Basic research
CEP classification - main branch
AI - Linguistics
CEP - secondary branch
JD - Use of computers, robotics and its application
CEP - another secondary branch
—
OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
20204 - Robotics and automatic control<br>20205 - Automation and control systems<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Completed project evaluation
Provider evaluation
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Project results evaluation
Atop of its original more moderate aims this project managed to produce morphological and syntactic annotation guidelines that are applicable to over 60 languages, and also managed to apply these onto vast corpora of such languages generating thus multilingual corpora of unparalleled size. Also valuable theoretical results were published.
Solution timeline
Realization period - beginning
Jan 1, 2015
Realization period - end
Apr 25, 2019
Project status
U - Finished project
Latest support payment
Apr 11, 2017
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP20-GA0-GA-U/01:1
Data delivery date
Jul 2, 2020
Finance
Total approved costs
3,382 thou. CZK
Public financial support
3,382 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK