Large language models through the prism of corpus linguistics
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
SGA0202400001
Main participants
Univerzita Karlova / Filozofická fakulta
Contest type
VS - Public tender
Contract ID
24-11725S
Alternative language
Project name in Czech
Velké jazykové modely prizmatem korpusové lingvistiky
Annotation in Czech
Cílem tohoto projektu je zkoumat rozdíly mezi texty vytvořenými lidmi a texty vytvořenými velkými jazykovými modely (LLM) pomocí korpusově lingvistických metod, jako je klasická stylistika a multidimenzionální analýza, zároveň se budeme zabývat i aspekty percepce, včetně lidského hodnocení přesvědčivosti. Projekt se zaměří na angličtinu i češtinu a rozdíly mezi nimi. Budeme také zkoumat vliv toho, že velké jazykové modely jsou trénovány primárně na anglických textech, předpokládáme totiž, že to konceptualizace získané na základě angličtiny budou mít vliv na texty, které model vyprodukuje v češtině. Tato témata budou zkoumána s využitím unikátního korpusu textů generovaných různými LLM, který bude publikován a zpřístupněn mezinárodní akademické obci.
Scientific branches
R&D category
ZV - Basic research
OECD FORD - main branch
60203 - Linguistics
OECD FORD - secondary branch
—
OECD FORD - another secondary branch
—
CEP - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
AI - Linguistics
Solution timeline
Realization period - beginning
Jan 1, 2024
Realization period - end
Dec 31, 2026
Project status
Z - Beginning multi-year project
Latest support payment
—
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP24-GA0-GA-R
Data delivery date
Mar 12, 2024
Finance
Total approved costs
3,170 thou. CZK
Public financial support
3,170 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK