Český národní korpus
Cíle projektu
CNC kontinuálně mapuje český jazyk prostřednictvím budování a zpřístupňování rozsáhlých jazykových korpusů. Jazyková data shromažďovaná CNC pokrývají široké spektrum žánrů a forem (od současné psané češtiny, přes češtinu mluvenou až po starší češtinu). Pro srovnávací výzkum je sestavován také paralelní korpus InterCorp zahrnující texty společně s jejich překlady mezi češtinou a více než 30 světovými jazyky. CNC představuje unikátní zdroj autentických informací o jazyce jak pro základní a aplikovaný jazykovědný výzkum, tak pro další společenskovědní a humanitní obory. Jazykové zdroje CNC jsou široce využívány zejména pro svou kontinuální povahu, pestrost a vyváženost složení, spolehlivá metadata a vysokou kvalitu zpracování pomocí nejnovějších nástrojů. CNC poskytuje uživatelský přístup k rozsáhlým datům na základě specializovaného webového rozhraní a uživatelskou podporu koncentrovanou do výzkumného portálu www.korpus.cz, včetně on-line poradny, manuálu a báze znalostí z korpusové lingvistiky ve formě wiki. Poskytuje také datové balíčky vytvořené na základě specifických požadavků uživatelů. CNC je v současnosti jediným specializovaným pracovištěm v ČR, které se systematicky soustředí na rozvíjení metodologie korpusové lingvistiky.
Klíčová slova
Veřejná podpora
Poskytovatel
Ministerstvo školství, mládeže a tělovýchovy
Program
Projekty velkých výzkumných infrastruktur
Veřejná soutěž
—
Hlavní účastníci
Univerzita Karlova / Filozofická fakulta
Druh soutěže
VL - Schváleno vládou
Číslo smlouvy
MSMT-1000/2016
Alternativní jazyk
Název projektu anglicky
Czech National Corpus
Anotace anglicky
The CNC is continuously mapping the Czech language by building large general-purpose language corpora and providing access to them. The CNC’s linguistic data cover a wide range of genres and language varieties, including written, spoken and diachronic Czech. In addition, the InterCorp parallel corpus contains original and translated texts in Czech and more than 30 other languages. The CNC corpora constitute a unique source of authentic language information for both basic and applied linguistic research, as well as for other domains of SSH. The CNC corpora are widely used thanks to their continuously growing size, varied and well-defined composition, reliable metadata and high quality data processing with state-of-the-art tools. The CNC provides intuitive access to its corpora through efficient, specialized web-based applications and user support featured at the CNC research portal www.korpus.cz that also includes User Forum (with Q&A, bug reporting etc.) and a corpus linguistics Wiki. It also provides data packages tailored to specific users’ needs. The CNC is the only centre in the country focusing systematically on developing the methodology of corpus linguistics.
Vědní obory
Kategorie VaV
IF - Infrastruktura výzkumu, vývoje a inovací
CEP - hlavní obor
AI - Jazykověda
CEP - vedlejší obor
—
CEP - další vedlejší obor
—
OECD FORD - odpovídající obory
(dle převodníku)60201 - General language studies
60202 - Specific languages
60203 - Linguistics
Hodnocení dokončeného projektu
Hodnocení poskytovatelem
V - Vynikající výsledky projektu (s mezinárodním významem atd.)
Zhodnocení výsledků projektu
Projekt se soustředil na kontinuální mapování českého jazyka prostřednictvím vytváření a zpřístupňování rozsáhlých databází autentických textů (jazykových korpusů), které primárně slouží jazykově orientovanému empirickému výzkumu v oblasti společenských a humanitních věd. Projekt lze celkově hodnotit jako velmi úspěšný, jeho řešení probíhalo až na výjimky v souladu s plánem také co se týče rozsahu a cílů projektu, některé cíle byly dokonce splněny nad plán.
Termíny řešení
Zahájení řešení
1. 1. 2016
Ukončení řešení
31. 12. 2019
Poslední stav řešení
U - Ukončený projekt
Poslední uvolnění podpory
15. 2. 2019
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP20-MSM-LM-U/03:1
Datum dodání záznamu
25. 6. 2020
Finance
Celkové uznané náklady
78 085 tis. Kč
Výše podpory ze státního rozpočtu
78 085 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč
Základní informace
Uznané náklady
78 085 tis. Kč
Statní podpora
78 085 tis. Kč
100%
Poskytovatel
Ministerstvo školství, mládeže a tělovýchovy
CEP
AI - Jazykověda
Doba řešení
01. 01. 2016 - 31. 12. 2019