Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Lepší tokenizace pro vícejazyčně jazykové modely a strojový překlad

Veřejná podpora

  • Poskytovatel

    Grantová agentura České republiky

  • Program

    Standardní projekty

  • Veřejná soutěž

    SGA0202500001

  • Hlavní účastníci

    Univerzita Karlova / Matematicko-fyzikální fakulta

  • Druh soutěže

    VS - Veřejná soutěž

  • Číslo smlouvy

    25-16242S

Alternativní jazyk

  • Název projektu anglicky

    Better Tokenization for Multilingual Language Models and Machine Translation

  • Anotace anglicky

    Tokenization and subword segmentation are the first steps in natural language processing using neural networks. Current approaches rely on statistical heuristics leading to segments that are not semantically plausible. This works well for monolingual language models and bilingual machine translation systems. However, massively multilingual setups require a huge vocabulary and lead to long input sequences. In this project, we will develop new techniques for subword segmentation. Unlike current methods that work primarily with string frequencies, we will ground the segmentation in words and subwords to better capture the meaning and thus obtain units that are better alignable across languages. Better-aligned subwords will allow us to cluster units across languages, thus significantly reducing the number of model parameters and making better use of language similarity.

Vědní obory

  • Kategorie VaV

    ZV - Základní výzkum

  • OECD FORD - hlavní obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

  • OECD FORD - vedlejší obor

  • OECD FORD - další vedlejší obor

  • CEP - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)

    AF - Dokumentace, knihovnictví, práce s informacemi<br>BC - Teorie a systémy řízení<br>BD - Teorie informace<br>IN - Informatika

Termíny řešení

  • Zahájení řešení

    1. 1. 2025

  • Ukončení řešení

    31. 12. 2027

  • Poslední stav řešení

    Z - Začínající víceletý projekt

  • Poslední uvolnění podpory

Dodání dat do CEP

  • Důvěrnost údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Systémové označení dodávky dat

    CEP25-GA0-GA-R

  • Datum dodání záznamu

    25. 2. 2025

Finance

  • Celkové uznané náklady

    6 704 tis. Kč

  • Výše podpory ze státního rozpočtu

    6 393 tis. Kč

  • Ostatní veřejné zdroje financování

    311 tis. Kč

  • Neveřejné tuz. a zahr. zdroje finan.

    0 tis. Kč