Large language models through the prism of corpus linguistics

Project name in Czech
Velké jazykové modely prizmatem korpusové lingvistiky
Annotation in Czech
Cílem tohoto projektu je zkoumat rozdíly mezi texty vytvořenými lidmi a texty vytvořenými velkými jazykovými modely (LLM) pomocí korpusově lingvistických metod, jako je klasická stylistika a multidimenzionální analýza, zároveň se budeme zabývat i aspekty percepce, včetně lidského hodnocení přesvědčivosti. Projekt se zaměří na angličtinu i češtinu a rozdíly mezi nimi. Budeme také zkoumat vliv toho, že velké jazykové modely jsou trénovány primárně na anglických textech, předpokládáme totiž, že to konceptualizace získané na základě angličtiny budou mít vliv na texty, které model vyprodukuje v češtině. Tato témata budou zkoumána s využitím unikátního korpusu textů generovaných různými LLM, který bude publikován a zpřístupněn mezinárodní akademické obci.

R&D category
ZV - Basic research
OECD FORD - main branch
60203 - Linguistics
OECD FORD - secondary branch
—
OECD FORD - another secondary branch
—
CEP - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
AI - Linguistics

Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP25-GA0-GA-R
Data delivery date
Feb 21, 2025

Similar projects(10)