All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Morphologically and Syntactically Annotated Corpora of Many Languages

Public support

  • Provider

    Czech Science Foundation

  • Programme

    Standard projects

  • Call for proposals

    Standardní projekty 19 (SGA0201500001)

  • Main participants

    Univerzita Karlova / Matematicko-fyzikální fakulta

  • Contest type

    VS - Public tender

  • Contract ID

    15-10472S

Alternative language

  • Project name in Czech

    Morfologicky a syntakticky anotované korpusy mnoha jazyků

  • Annotation in Czech

    Anotované korpusy představují důležitý zdroj dat pro řadu úloh počítačové lingvistiky i počítačového zpracování přirozeného jazyka. Dnes už jsou k dispozici pro celou řadu jazyků, byť pro některé jazyky jen v malém množství. Bohužel tyto korpusy byly vyvíjeny mnoha různými týmy za rozdílných podmínek, případně i s odlišnými cíli. Vzájemně neslučitelná rozhodnutí učiněná při návrhu anotačních schémat velmi komplikují až znemožňují jakákoli mezijazyková srovnání nebo zpracování vícejazyčných dat. Tento projekt se zaměřuje na 1. zkoumání jevů zachycených v existujících korpusech pro 30 různých jazyků; 2. hledání univerzálně použitelné anotace pro jednotné zachycení všech těchto jevů a 3. posouzení vhodnosti alternativních závislostních struktur pro počítačové zpracování přirozených jazyků, zejména pro syntaktickou analýzu (parsing). Výsledky výzkumu budou shrnuty v monografii.

Scientific branches

  • R&D category

    ZV - Basic research

  • CEP classification - main branch

    AI - Linguistics

  • CEP - secondary branch

    JD - Use of computers, robotics and its application

  • CEP - another secondary branch

  • OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)

    20204 - Robotics and automatic control<br>20205 - Automation and control systems<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics

Completed project evaluation

  • Provider evaluation

    V - Vynikající výsledky projektu (s mezinárodním významem atd.)

  • Project results evaluation

    Atop of its original more moderate aims this project managed to produce morphological and syntactic annotation guidelines that are applicable to over 60 languages, and also managed to apply these onto vast corpora of such languages generating thus multilingual corpora of unparalleled size. Also valuable theoretical results were published.

Solution timeline

  • Realization period - beginning

    Jan 1, 2015

  • Realization period - end

    Apr 25, 2019

  • Project status

    U - Finished project

  • Latest support payment

    Apr 11, 2017

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP20-GA0-GA-U/01:1

  • Data delivery date

    Jul 2, 2020

Finance

  • Total approved costs

    3,382 thou. CZK

  • Public financial support

    3,382 thou. CZK

  • Other public sources

    0 thou. CZK

  • Non public and foreign sources

    0 thou. CZK