Language Research Infrastructure in the Czech Republic

Project goals

The goal of the project is to facilitate research in the area of language technology and in all social sciences and humanities related to language as an information medium or an object of research itself. The added value of the Research Infrastructure is - internationalization of research and significantly higher level of international collaboration through CLARIN ERIC; - availability of language resources, their metadata, standardization, persistent identification according to the Force11 principles adopted by CLARIN ERIC, RDA, OpenAIRE and other organizations, openness in distribution of data and metadata in the LINDAT/CLARIN repository; - single sign-on through individual accounts of researchers from their home institutions using Shibboleth authentication; - depositing system open to all researchers from all types of institutions, provided all standards are followed; - web services and web applications for use and processing of language resources, including researchers’ own data, linked to distributed processing authorization within CLARIN; - data access, search by metadata as well as by content while respecting individual license agreements; - wide education possibilities for students at all levels of the educational system, enabling them to use as well as to create language resources, metadata, and software tools for language processing; - providing services for the general public, primarily by the integration of the Institute of the Czech Language as the Czech Language overseeing institution.


language resourcesnatural language processinglinguisticsdigital humanities

Public support

    Ministry of Education, Youth and Sports

    Univerzita Karlova / Matematicko-fyzikální fakulta

    VL - Approved by the Government

    Jazyková výzkumná infrastruktura v České republice

    Cílem projektu je umožnit výzkum v oblasti jazykových technologií a ve všech humanitních a společenskovědních oborech spjatých s jazykem jako nositelem informace nebo vlastním objektem výzkumu. Její přidanou hodnotou je zejména: – internacionalizace a významné zvýšení mezinárodní úrovně a spolupráce, zejména začleněním do evropské VI CLARIN ERIC; – koncentrace jazykových dat a metadat, jejich standardizace, citovatelnost (pomocí přidělovaných persistentních identifikátorů) podle principů „Force11“ přijatých CLARIN ERIC, Research Data Alliance (RDA), OpenAire a dalšími organizacemi, a zejména úplná otevřenost metadat a naprosté většiny dat v repozitáři LINDAT/CLARIN; – jednotný přístup přes osobní účty výzkumníků na jejich mateřských institucích podle normy Shibboleth a díky začlenění do federace identit a poskytovatelů výzkumných služeb; – systém ukládání výzkumných dat otevřený všem akademickým uživatelům, za podmínky dodržení výše uvedených standardů; – služby a webové aplikace pro zpracování a využívání jazykových dat, a to i vlastních dat uživatelů-výzkumníků, provázané se systémem autentizace pro distribuované zpracování dat v rámci sítě CLARIN; – přístup k datům, vyhledávání pomocí metadat i obsahu vlastních jazykových dat při respektování licenčních podmínek tam, kde je to nezbytné; – široké možnosti vzdělávání studentů na všech stupních jak při tvorbě, tak i využívání jazykových dat a metadat a softwarových nástrojů pro jejich zpracování; – služby široké veřejnosti, zejména zapojením ÚJČ AV ČR jako garanta správy českého jazyka.

    IF - RDI infrastructure

    AI - Linguistics

    IN - Informatics

  • 10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
    60201 - General language studies
    60202 - Specific languages
    60203 - Linguistics

    U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)

    The goals of the project have been met, both nationally and internationally. The project has established itself firmly as part of the CLARIN network in Europe, providing all the resources and services that has been among its goals at the begining. It is a unique RI in the Czech Republic which is well connected, heavily used and internationally renowned for both its technical base as well as for the resources it has created and offered for open and free access.

    Jan 1, 2016

    Dec 31, 2019

    U - Finished project

    Feb 15, 2019

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

    Jun 25, 2020


63 896 CZK thou.

63 896 CZK thou.



Ministry of Education, Youth and Sports


AI - Linguistics

01. 01. 2016 - 31. 12. 2019