All

What are you looking for?

All

Projects

Results

Organizations

Quick search

Projects supported by TA ČR
Excellent projects
Projects with the highest public support
Current projects

Smart search

That is how I find a specific +word
That is how I leave the -word out of the results
“That is how I can find the whole phrase”

EN

Čeština English

Czech National Corpus

Public support

Provider
Ministry of Education, Youth and Sports
Programme
—
Call for proposals
—
Main participants
Univerzita Karlova / Filozofická fakulta
Contest type
VL - Approved by the Government
Contract ID
MSMT-15363/2012-32

Alternative language

Project name in Czech
Český národní korpus
Annotation in Czech
Český národní korpus (ČNK) usiluje o extenzívní a kontinuální datové pokrývání češtiny (a dalších jazyků ve srovnání s ní) a cíleně tak buduje bázi pro základní i aplikovaný výzkum. ČNK představuje jediný projekt svého druhu v České republice a svými dosavadními výsledky (nabídka korpusů o celkovém rozsahu více 1,3 miliardy textových slov) se řadí k předním korpusovým pracovištím i ve světovém měřítku. Cílem činnosti ČNK je především kontinuální rozvoj a budování jazykových korpusů různých typů jako reprezentativní lingvisticky zpracované datové základny pro empirický a exaktní výzkum českého jazyka; jde především o korpusy zachycující češtinu v jejím současném stavu (synchronní korpusy psaného a mluveného jazyka), v jejím historickém vývoji (diachronní korpus) a v překladovém srovnání s jinými jazyky (paralelní korpusy). S tím úzce souvisí i mnohostranná, trvale rozvíjená a zdokonalovaná strukturní a lingvistická anotace těchto korpusů. ČNK bude na požádání zajišťovat také komplexní zpracování dalších korpusů vzniklých na jiných pracovištích v ČR i v zahraničí a veřejný přístup k nim. Nedílnou součástí projektu je bezplatná a otevřená veřejná služba poskytování internetového uživatelského přístupu ke všem korpusům pomocí specializovaných korpusovýchnástrojů, včetně související správy, uživatelského servisu a vývoje těchto nástrojů. S tím je spojeno také poskytování datových balíčků (tj. zpracovaných a anotovaných souborů jazykových dat) dalším institucím i individuálním uživatelům v ČR i v zahraničí, v různých podobách a formátech podle potřeb těchto uživatelů, s využitím zejména pro jazykovědný výzkum a počítačové zpracování přirozeného jazyka.

Scientific branches

R&D category
IF - RDI infrastructure
CEP classification - main branch
AI - Linguistics
CEP - secondary branch
AF - Documentation, librarianship, work with information
CEP - another secondary branch
—
OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>50803 - Information science (social aspects)<br>50804 - Library science<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics

Completed project evaluation

Provider evaluation
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Project results evaluation
The large infrastructure has been eminently successful in strengthening the role of the CNC in the academic environment of Czech language studies, by providing a research infrastructure of resources and the tools to handle them, by research on a variety of aspects of the Czech language, and as a hub of collaborative activities.

Solution timeline

Realization period - beginning
Jan 1, 2012
Realization period - end
Dec 31, 2015
Project status
U - Finished project
Latest support payment
Mar 26, 2015

Data delivery to CEP

Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP16-MSM-LM-U/02:1
Data delivery date
Sep 15, 2017

Finance

Total approved costs
88,000 thou. CZK
Public financial support
88,000 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK

Similar projects(10)

Czech National Corpus (LM2015044) Czech National Corpus (LM2023044) Czech National Corpus (LM2018137)