All
All

What are you looking for?

All
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Cze-Lex: A large-scale quantification of the Czech lexicon

Project goals

How is the Czech lexicon represented in the minds of those who use it? The proposed project will provide the first large-scale study that quantifies the psycholinguistic properties for thousands of Czech words. Using corpora from different genres and time periods, we will uncover the underlying statistical properties of words. From human participants (from diverse age groups - young, middle aged and older adults), we will collect normative ratings of the semantic properties of the words. These variables will then be used to statistically model Czech word processing in the different age populations. Finally, we will use Czech word embedding models to extrapolate new data from our psycholinguistic variables, providing full coverage across the whole Czech lexicon. This will be the first such resource available for Czech, which will aim to open up new research avenues for linguists, psychologists and cognitive scientists and provide novel insights into the way word meanings differ, or remain stable, across different demographic groups.

Keywords

psycholinguisticsCzech lexiconcognition,normingfrequencyAoAconcretenessimageabilitysemantics, word embeddings,corpus

Public support

  • Provider

    Czech Science Foundation

  • Programme

    Standard projects

  • Call for proposals

    SGA0202300001

  • Main participants

    Univerzita Karlova / Filozofická fakulta

  • Contest type

    VS - Public tender

  • Contract ID

    23-06796S

Alternative language

  • Project name in Czech

    Cze-Lex: Kvantifikace českého lexikonu

  • Annotation in Czech

    Jak je čeština reprezentována v myslích svých uživatelů? Navrhovaný projekt představuje první rozsáhlou studii, jejímž cílem je kvantifikace psycholingvistických vlastnostní tisíců českých slov. Na základě korpusů různých žánrů a časových období budou odhalovány statistické vlastnosti slov. Přímo od rodilých mluvčích češtiny (z mladší, střední a starší generace) budou získávány normativní hodnocení sémantických vlastností slov. Tyto proměnné pak budou použity ve statistickém modelu zpracování českých slov v různých věkových populacích. Kromě toho pro práci se získanými daty budou využívány modely vnoření slov v češtině (word embedding models). Celkově se bude jednat o první databázi tohoto typu dostupnou pro češtinu. Tato databáze bude následně sloužit lingvistům, psychologům a kognitivním vědcům a na jejím základě bude možné vysuzovat, nakolik se významy slov liší napříč různými generacemi mluvčích.

Scientific branches

  • R&D category

    ZV - Basic research

  • OECD FORD - main branch

    50103 - Cognitive sciences

  • OECD FORD - secondary branch

    60203 - Linguistics

  • OECD FORD - another secondary branch

    50101 - Psychology (including human - machine relations)

  • AI - Linguistics
    AN - Psychology

Solution timeline

  • Realization period - beginning

    Jan 1, 2023

  • Realization period - end

    Dec 31, 2025

  • Project status

    K - Ending multi-year project

  • Latest support payment

    Feb 29, 2024

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP25-GA0-GA-R

  • Data delivery date

    Feb 21, 2025

Finance

  • Total approved costs

    5,434 thou. CZK

  • Public financial support

    5,434 thou. CZK

  • Other public sources

    0 thou. CZK

  • Non public and foreign sources

    0 thou. CZK

Basic information

Recognised costs

5 434 CZK thou.

Public support

5 434 CZK thou.

100%


Provider

Czech Science Foundation

OECD FORD

Cognitive sciences

Solution period

01. 01. 2023 - 31. 12. 2025