Very Large Language Corpora and Their Automatic Analysis
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
Standardní projekty 2 (SGA02003GA-ST)
Main participants
Univerzita Karlova / Matematicko-fyzikální fakulta
Contest type
VS - Public tender
Contract ID
—
Alternative language
Project name in Czech
Velké jazykové korpusy a jejich automatická analýza
Annotation in Czech
Jazykové korpusy jsou nezastupitelnou součástí lingvistického výzkumu. Používají se za různým účelem, od jednoduchého vyhledávání daných slov až po přímé využití pro tzv. trénování v metodách automatického strojového učení; tyto metody se používají např.pro pravděpodobnostní jazykové modelování či automatickou počítačovou analýzu vět přirozeného jazyka. Použitelnost a užitečnost jazykových textových a řečových korpusů (včetně vícejazyčných) je umocněna jejich lingvistickou analýzou (anotováním). Anotacemůže odrážet jak formu, strukturu i funkci jazykových jednotek obsažených v anotovaném textu.Základním cílem projektu je obohatit naše dosavadní znalosti o jazykovém systému obecně a češtině zvlášť, a to ve smyslu vyvinutí takových metod (zejména metodstatistického strojového učení a metod symbolických, a jejich kombinací), aby bylo možno s vysokou přesností analyzovat velké jazykové korpusy jak psaného, tak mluveného textu. Bude se přitom využívat výsledků dosažené v předchozích projektech a grantech
Scientific branches
R&D category
ZV - Basic research
CEP classification - main branch
AI - Linguistics
CEP - secondary branch
JD - Use of computers, robotics and its application
CEP - another secondary branch
—
OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
20204 - Robotics and automatic control<br>20205 - Automation and control systems<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Completed project evaluation
Provider evaluation
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Project results evaluation
The goals of the project have been fully met. The results of the project include, on top of its 25+ published papers and reports (including one book on Czech computational morphology), a suite of software tools for corpus maintenance and exploitation and
Solution timeline
Realization period - beginning
Jan 1, 2003
Realization period - end
Jan 1, 2005
Project status
U - Finished project
Latest support payment
—
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP06-GA0-GA-U/07:6
Data delivery date
Jan 15, 2009
Finance
Total approved costs
13,362 thou. CZK
Public financial support
6,982 thou. CZK
Other public sources
6,380 thou. CZK
Non public and foreign sources
0 thou. CZK