Better Tokenization for Multilingual Language Models and Machine Translation
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
SGA0202500001
Main participants
Univerzita Karlova / Matematicko-fyzikální fakulta
Contest type
VS - Public tender
Contract ID
25-16242S
Alternative language
Project name in Czech
Lepší tokenizace pro vícejazyčně jazykové modely a strojový překlad
Annotation in Czech
Tokenizace a segmentace na podslova jsou prvním krokem při zpracování přirozeného jazyka pomocí neuronových sítí. Současné přístupy jsou založeny na statistických heuristikách, které vedou k segmentům, které nemají sémantický význam. To funguje dobře pro jednojazyčné jazykové modely a dvojjazyčný strojový překlad. V masivně vícejazyčných systémech to však vyžaduje velké slovníky a vede to k dlouhým vstupním sekvencím. V projektu vyvineme nové algoritmy pro segmentaci na podslova. Na rozdíl od současných metod, které pracují primárně s četností řetězců, segmentaci zakotvíme v embedingách slov a podslov, abychom lépe zachytili význam a získali tak jednotky, které jsou více zarovnatelné napříč jazyky. Lépe zarovnatelná podslova nám umožní shlukovat jednotky napříč jazyky, a tím výrazně snížit počet parametrů modelů a lépe využít podobností napříč jazyky.
Scientific branches
R&D category
ZV - Basic research
OECD FORD - main branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - secondary branch
—
OECD FORD - another secondary branch
—
CEP - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
AF - Documentation, librarianship, work with information<br>BC - Theory and management systems<br>BD - Information theory<br>IN - Informatics
Solution timeline
Realization period - beginning
Jan 1, 2025
Realization period - end
Dec 31, 2027
Project status
Z - Beginning multi-year project
Latest support payment
—
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP25-GA0-GA-R
Data delivery date
Feb 25, 2025
Finance
Total approved costs
6,704 thou. CZK
Public financial support
6,393 thou. CZK
Other public sources
311 thou. CZK
Non public and foreign sources
0 thou. CZK