All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Very Large Language Corpora and Their Automatic Analysis

Public support

  • Provider

    Czech Science Foundation

  • Programme

    Standard projects

  • Call for proposals

    Standardní projekty 2 (SGA02003GA-ST)

  • Main participants

    Univerzita Karlova / Matematicko-fyzikální fakulta

  • Contest type

    VS - Public tender

  • Contract ID

Alternative language

  • Project name in Czech

    Velké jazykové korpusy a jejich automatická analýza

  • Annotation in Czech

    Jazykové korpusy jsou nezastupitelnou součástí lingvistického výzkumu. Používají se za různým účelem, od jednoduchého vyhledávání daných slov až po přímé využití pro tzv. trénování v metodách automatického strojového učení; tyto metody se používají např.pro pravděpodobnostní jazykové modelování či automatickou počítačovou analýzu vět přirozeného jazyka. Použitelnost a užitečnost jazykových textových a řečových korpusů (včetně vícejazyčných) je umocněna jejich lingvistickou analýzou (anotováním). Anotacemůže odrážet jak formu, strukturu i funkci jazykových jednotek obsažených v anotovaném textu.Základním cílem projektu je obohatit naše dosavadní znalosti o jazykovém systému obecně a češtině zvlášť, a to ve smyslu vyvinutí takových metod (zejména metodstatistického strojového učení a metod symbolických, a jejich kombinací), aby bylo možno s vysokou přesností analyzovat velké jazykové korpusy jak psaného, tak mluveného textu. Bude se přitom využívat výsledků dosažené v předchozích projektech a grantech

Scientific branches

  • R&D category

    ZV - Basic research

  • CEP classification - main branch

    AI - Linguistics

  • CEP - secondary branch

    JD - Use of computers, robotics and its application

  • CEP - another secondary branch

  • OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)

    20204 - Robotics and automatic control<br>20205 - Automation and control systems<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics

Completed project evaluation

  • Provider evaluation

    V - Vynikající výsledky projektu (s mezinárodním významem atd.)

  • Project results evaluation

    The goals of the project have been fully met. The results of the project include, on top of its 25+ published papers and reports (including one book on Czech computational morphology), a suite of software tools for corpus maintenance and exploitation and

Solution timeline

  • Realization period - beginning

    Jan 1, 2003

  • Realization period - end

    Jan 1, 2005

  • Project status

    U - Finished project

  • Latest support payment

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP06-GA0-GA-U/07:6

  • Data delivery date

    Jan 15, 2009

Finance

  • Total approved costs

    13,362 thou. CZK

  • Public financial support

    6,982 thou. CZK

  • Other public sources

    6,380 thou. CZK

  • Non public and foreign sources

    0 thou. CZK