Lepší tokenizace pro vícejazyčně jazykové modely a strojový překlad
Veřejná podpora
Poskytovatel
Grantová agentura České republiky
Program
Standardní projekty
Veřejná soutěž
SGA0202500001
Hlavní účastníci
Univerzita Karlova / Matematicko-fyzikální fakulta
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
25-16242S
Alternativní jazyk
Název projektu anglicky
Better Tokenization for Multilingual Language Models and Machine Translation
Anotace anglicky
Tokenization and subword segmentation are the first steps in natural language processing using neural networks. Current approaches rely on statistical heuristics leading to segments that are not semantically plausible. This works well for monolingual language models and bilingual machine translation systems. However, massively multilingual setups require a huge vocabulary and lead to long input sequences. In this project, we will develop new techniques for subword segmentation. Unlike current methods that work primarily with string frequencies, we will ground the segmentation in words and subwords to better capture the meaning and thus obtain units that are better alignable across languages. Better-aligned subwords will allow us to cluster units across languages, thus significantly reducing the number of model parameters and making better use of language similarity.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
OECD FORD - hlavní obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - vedlejší obor
—
OECD FORD - další vedlejší obor
—
CEP - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
AF - Dokumentace, knihovnictví, práce s informacemi<br>BC - Teorie a systémy řízení<br>BD - Teorie informace<br>IN - Informatika
Termíny řešení
Zahájení řešení
1. 1. 2025
Ukončení řešení
31. 12. 2027
Poslední stav řešení
Z - Začínající víceletý projekt
Poslední uvolnění podpory
—
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP25-GA0-GA-R
Datum dodání záznamu
25. 2. 2025
Finance
Celkové uznané náklady
6 704 tis. Kč
Výše podpory ze státního rozpočtu
6 393 tis. Kč
Ostatní veřejné zdroje financování
311 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč