Czech National Corpus
Public support
Provider
Ministry of Education, Youth and Sports
Programme
—
Call for proposals
—
Main participants
Univerzita Karlova / Filozofická fakulta
Contest type
VL - Approved by the Government
Contract ID
MSMT-15363/2012-32
Alternative language
Project name in Czech
Český národní korpus
Annotation in Czech
Český národní korpus (ČNK) usiluje o extenzívní a kontinuální datové pokrývání češtiny (a dalších jazyků ve srovnání s ní) a cíleně tak buduje bázi pro základní i aplikovaný výzkum. ČNK představuje jediný projekt svého druhu v České republice a svými dosavadními výsledky (nabídka korpusů o celkovém rozsahu více 1,3 miliardy textových slov) se řadí k předním korpusovým pracovištím i ve světovém měřítku. Cílem činnosti ČNK je především kontinuální rozvoj a budování jazykových korpusů různých typů jako reprezentativní lingvisticky zpracované datové základny pro empirický a exaktní výzkum českého jazyka; jde především o korpusy zachycující češtinu v jejím současném stavu (synchronní korpusy psaného a mluveného jazyka), v jejím historickém vývoji (diachronní korpus) a v překladovém srovnání s jinými jazyky (paralelní korpusy). S tím úzce souvisí i mnohostranná, trvale rozvíjená a zdokonalovaná strukturní a lingvistická anotace těchto korpusů. ČNK bude na požádání zajišťovat také komplexní zpracování dalších korpusů vzniklých na jiných pracovištích v ČR i v zahraničí a veřejný přístup k nim. Nedílnou součástí projektu je bezplatná a otevřená veřejná služba poskytování internetového uživatelského přístupu ke všem korpusům pomocí specializovaných korpusovýchnástrojů, včetně související správy, uživatelského servisu a vývoje těchto nástrojů. S tím je spojeno také poskytování datových balíčků (tj. zpracovaných a anotovaných souborů jazykových dat) dalším institucím i individuálním uživatelům v ČR i v zahraničí, v různých podobách a formátech podle potřeb těchto uživatelů, s využitím zejména pro jazykovědný výzkum a počítačové zpracování přirozeného jazyka.
Scientific branches
R&D category
IF - RDI infrastructure
CEP classification - main branch
AI - Linguistics
CEP - secondary branch
AF - Documentation, librarianship, work with information
CEP - another secondary branch
—
OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>50803 - Information science (social aspects)<br>50804 - Library science<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Completed project evaluation
Provider evaluation
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Project results evaluation
The large infrastructure has been eminently successful in strengthening the role of the CNC in the academic environment of Czech language studies, by providing a research infrastructure of resources and the tools to handle them, by research on a variety of aspects of the Czech language, and as a hub of collaborative activities.
Solution timeline
Realization period - beginning
Jan 1, 2012
Realization period - end
Dec 31, 2015
Project status
U - Finished project
Latest support payment
Mar 26, 2015
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP16-MSM-LM-U/02:1
Data delivery date
Sep 15, 2017
Finance
Total approved costs
88,000 thou. CZK
Public financial support
88,000 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK