Cze-Lex: A large-scale quantification of the Czech lexicon
Project goals
How is the Czech lexicon represented in the minds of those who use it? The proposed project will provide the first large-scale study that quantifies the psycholinguistic properties for thousands of Czech words. Using corpora from different genres and time periods, we will uncover the underlying statistical properties of words. From human participants (from diverse age groups - young, middle aged and older adults), we will collect normative ratings of the semantic properties of the words. These variables will then be used to statistically model Czech word processing in the different age populations. Finally, we will use Czech word embedding models to extrapolate new data from our psycholinguistic variables, providing full coverage across the whole Czech lexicon. This will be the first such resource available for Czech, which will aim to open up new research avenues for linguists, psychologists and cognitive scientists and provide novel insights into the way word meanings differ, or remain stable, across different demographic groups.
Keywords
psycholinguisticsCzech lexiconcognition,normingfrequencyAoAconcretenessimageabilitysemantics, word embeddings,corpus
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
SGA0202300001
Main participants
Univerzita Karlova / Filozofická fakulta
Contest type
VS - Public tender
Contract ID
23-06796S
Alternative language
Project name in Czech
Cze-Lex: Kvantifikace českého lexikonu
Annotation in Czech
Jak je čeština reprezentována v myslích svých uživatelů? Navrhovaný projekt představuje první rozsáhlou studii, jejímž cílem je kvantifikace psycholingvistických vlastnostní tisíců českých slov. Na základě korpusů různých žánrů a časových období budou odhalovány statistické vlastnosti slov. Přímo od rodilých mluvčích češtiny (z mladší, střední a starší generace) budou získávány normativní hodnocení sémantických vlastností slov. Tyto proměnné pak budou použity ve statistickém modelu zpracování českých slov v různých věkových populacích. Kromě toho pro práci se získanými daty budou využívány modely vnoření slov v češtině (word embedding models). Celkově se bude jednat o první databázi tohoto typu dostupnou pro češtinu. Tato databáze bude následně sloužit lingvistům, psychologům a kognitivním vědcům a na jejím základě bude možné vysuzovat, nakolik se významy slov liší napříč různými generacemi mluvčích.
Scientific branches
Solution timeline
Realization period - beginning
Jan 1, 2023
Realization period - end
Dec 31, 2025
Project status
K - Ending multi-year project
Latest support payment
Feb 29, 2024
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP25-GA0-GA-R
Data delivery date
Feb 21, 2025
Finance
Total approved costs
5,434 thou. CZK
Public financial support
5,434 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK
Basic information
Recognised costs
5 434 CZK thou.
Public support
5 434 CZK thou.
100%
Provider
Czech Science Foundation
OECD FORD
Cognitive sciences
Solution period
01. 01. 2023 - 31. 12. 2025