Vše
Vše

Co hledáte?

Vše
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Velké jazykové modely prizmatem korpusové lingvistiky

Cíle projektu

Cílem tohoto projektu je zkoumat rozdíly mezi texty vytvořenými lidmi a texty vytvořenými velkými jazykovými modely (LLM) pomocí korpusově lingvistických metod, jako je klasická stylistika a multidimenzionální analýza, zároveň se budeme zabývat i aspekty percepce, včetně lidského hodnocení přesvědčivosti. Projekt se zaměří na angličtinu i češtinu a rozdíly mezi nimi. Budeme také zkoumat vliv toho, že velké jazykové modely jsou trénovány primárně na anglických textech, předpokládáme totiž, že to konceptualizace získané na základě angličtiny budou mít vliv na texty, které model vyprodukuje v češtině. Tato témata budou zkoumána s využitím unikátního korpusu textů generovaných různými LLM, který bude publikován a zpřístupněn mezinárodní akademické obci.

Klíčová slova

Large language modelsGPTtransformerscorpus linguisticsstylometry

Veřejná podpora

  • Poskytovatel

    Grantová agentura České republiky

  • Program

    Standardní projekty

  • Veřejná soutěž

    SGA0202400001

  • Hlavní účastníci

    Univerzita Karlova / Filozofická fakulta

  • Druh soutěže

    VS - Veřejná soutěž

  • Číslo smlouvy

    24-11725S

Alternativní jazyk

  • Název projektu anglicky

    Large language models through the prism of corpus linguistics

  • Anotace anglicky

    This project aims to investigate the differences between human-generated texts and those produced by large language models (LLMs) using corpus linguistic methods, such as classical stylometry and multidimensional analysis, while also addressing aspects of perception, including human evaluations of persuasiveness. The project will focus on both English and Czech languages and the differences between them. We will also investigate the influence of the fact that large language models are primarily trained on English texts, as we assume that the conceptualizations obtained from English will influence the texts produced by the model in Czech. These topics will be investigated using a unique corpus of texts generated by various LLMs, which will be published and made accessible to the international academic community.

Vědní obory

  • Kategorie VaV

    ZV - Základní výzkum

  • OECD FORD - hlavní obor

    60203 - Linguistics

  • OECD FORD - vedlejší obor

  • OECD FORD - další vedlejší obor

  • CEP - odpovídající obory
    (dle převodníku)

    AI - Jazykověda

Termíny řešení

  • Zahájení řešení

    1. 1. 2024

  • Ukončení řešení

    31. 12. 2026

  • Poslední stav řešení

    B - Běžící víceletý projekt

  • Poslední uvolnění podpory

    19. 3. 2024

Dodání dat do CEP

  • Důvěrnost údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Systémové označení dodávky dat

    CEP25-GA0-GA-R

  • Datum dodání záznamu

    21. 2. 2025

Finance

  • Celkové uznané náklady

    3 170 tis. Kč

  • Výše podpory ze státního rozpočtu

    3 170 tis. Kč

  • Ostatní veřejné zdroje financování

    0 tis. Kč

  • Neveřejné tuz. a zahr. zdroje finan.

    0 tis. Kč

Základní informace

Uznané náklady

3 170 tis. Kč

Statní podpora

3 170 tis. Kč

100%


Poskytovatel

Grantová agentura České republiky

OECD FORD

Linguistics

Doba řešení

01. 01. 2024 - 31. 12. 2026