Český národní korpus
Veřejná podpora
Poskytovatel
Ministerstvo školství, mládeže a tělovýchovy
Program
Projekty velkých výzkumných infrastruktur
Veřejná soutěž
—
Hlavní účastníci
Univerzita Karlova / Filozofická fakulta
Druh soutěže
VL - Schváleno vládou
Číslo smlouvy
MSMT-15363/2012-32
Alternativní jazyk
Název projektu anglicky
Czech National Corpus
Anotace anglicky
The Czech National Corpus (CNC) strives for extensive and continuous data coverage of the Czech language (and other languages in comparison with Czech) aiming thus to build up a foundation for basic and applied research. The CNC is the only project of its kind in the Czech Republic and due to its current results (set of corpora containing more than 1.3 billion tokens in total), it ranks among the foremost corpus research centres in the world. The CNC objective is mainly continuous development and building of language corpora of various types as representative, linguistically processed textual bases for empirical and exact research of the Czech language; these are primarily corpora covering Czech in its present state (synchronic corpora of written and spoken language), in its historical development (diachronic corpus), and in translation comparison with other languages (parallel corpora). This is closely related to versatile, continually developed and improved structural and specialized linguistic annotation of these corpora. Upon request, the CNC will also cater for comprehensive processing of other corpora created at different institutes in the Czech Republic and abroad, as well as maintaining public access to them. An integral part of the project is providing free and open public service of internet user access to all corpora through specialized corpus tools, including related administration, user service and development of these tools. This is connected to providing of data packages (i.e. processed and annotated collections of language data) to other institutions and individual users in the Czech Republic as well as abroad, in various forms and formats according to the users? needs, with applications ranging from linguistic research to natural language processing.
Vědní obory
Kategorie VaV
IF - Infrastruktura výzkumu, vývoje a inovací
CEP - hlavní obor
AI - Jazykověda
CEP - vedlejší obor
AF - Dokumentace, knihovnictví, práce s informacemi
CEP - další vedlejší obor
—
OECD FORD - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>50803 - Information science (social aspects)<br>50804 - Library science<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Hodnocení dokončeného projektu
Hodnocení poskytovatelem
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Zhodnocení výsledků projektu
Velká infrastrukutra byla neobyčejně úspěšná v posilování role ČNK v akademickém prostředí českých jazykových studií, a to poskytnutím výzkumné infrastruktury zdrojů a nástrojů pro práci s nimi, výzkumem různých aspektů českého jazyka a jako centrum spolupracujících aktivit.
Termíny řešení
Zahájení řešení
1. 1. 2012
Ukončení řešení
31. 12. 2015
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
26. 3. 2015
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP16-MSM-LM-U/02:1
Datum dodání záznamu
15. 9. 2017
Finance
Celkové uznané náklady
88 000 tis. Kč
Výše podpory ze státního rozpočtu
88 000 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč