Between lexicon and grammar
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
Standardní projekty 20 (SGA0201600001)
Main participants
Univerzita Karlova / Filozofická fakulta
Contest type
VS - Public tender
Contract ID
16-07473S
Alternative language
Project name in Czech
Mezi slovníkem a gramatikou
Annotation in Czech
Bude vytvořena podrobná typologie víceslovných výrazů/jednotek (VSJ) v češtině a jejich typologicky reprezentativní lexikální databáze o rozsahu aspoň 7000 hesel. Typologie bude založena na těchto hlediscích: (i) míra ustálenosti (podle různých kvantitativních charakteristik); (ii) slovnědruhová a morfologická klasifikace; (iii) syntax vč. slovosledu: syntaktická struktura VSJ, její aktivní/pasivní valence, syntaktická transformovatelnost (pasivizace, topikalizace, rozvíjení komponentů VSJ ad.); slovosled komponentů VSJ: jejich těsnost a vzdálenost, obměna slovosledu; (iv) sémantika: (ne)kompozicionalita významu složek VSJ; (v) lexikální zřetele: lexikální funkce, selekční omezení. Databáze bude obsahovat co největší množství typů VSJ podle uvedených zřetelů. Struktura jednotlivých hesel bude koncipována tak, že bude možné je zapojit do syntaktické struktury věty v již existujícím formátu. VSJ se budou vybírat z korpusů současné češtiny řady SYN Českého národního korpusu podle již vyvinutých specifických kolokačních měr a různých kvantitativních charakteristik.
Scientific branches
R&D category
ZV - Basic research
CEP classification - main branch
AI - Linguistics
CEP - secondary branch
—
CEP - another secondary branch
—
OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics
Completed project evaluation
Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
A database of multiword expressions has been created and methods of automatic annotation of these units in the corpus have been developed. The benefit can be seen both at the theoretical level (morphosyntactic properties of Czech phrasemes) and at the computational level (defining parameters for automatic analysis). The results of the research were published in international and Czech journals.
Solution timeline
Realization period - beginning
Jan 1, 2016
Realization period - end
Jul 22, 2020
Project status
U - Finished project
Latest support payment
Apr 26, 2018
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP21-GA0-GA-U/01:1
Data delivery date
Apr 12, 2021
Finance
Total approved costs
2,988 thou. CZK
Public financial support
2,988 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK