Identification and Prevention of Unwanted Gender Bias in Neural Language Models
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
SGA0202300001
Main participants
Univerzita Karlova / Matematicko-fyzikální fakulta
Contest type
VS - Public tender
Contract ID
23-06912S
Alternative language
Project name in Czech
Identifikace a prevence nechtěné genderové zaujatosti v neuronových jazykových modelech
Annotation in Czech
V minulých letech zaznamenaly hluboké neuronové sítě obrovský úspěch v široké škále úkolů z oblasti zpracování přirozeného jazyka (např. strojový překlad nebo odpovídání na otázky). Tyto sítě se však chovají jako černá skříňka. Pozorujeme pouze vstupy a výstupy modelů a vše ostatní zůstává skryto. Ukazuje se, že modely natrénované na obrovských jazykových datech jsou citlivé na učení se nespravedlivých předsudků v těchto datech obsažených. Tento projekt si klade za cíl prozkoumat genderové předsudky naučené široce používanou sítí Transformer. Budeme analyzovat kontextové reprezentace slov v Transformeru a hledat transformace, které by je promítly do vektorového prostoru, kde půjdou genderové předsudky dobře oddělit a odfiltrovat. Současně však budeme chtít zachovat ostatní informace o rodech například v zájmenech nebo ve slovech jako `kluk' nebo `královna', což značně tento problém zesložiťuje. Naše metody budou dále zobecněny pro použití ve strojovém překladu z angličtiny do morfologicky bohatších jazyků s cílem zmírnit gendrovou zaujatost a zmenšit monžství překladových chyb v rodě
Scientific branches
R&D category
ZV - Basic research
OECD FORD - main branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - secondary branch
—
OECD FORD - another secondary branch
—
CEP - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
AF - Documentation, librarianship, work with information<br>BC - Theory and management systems<br>BD - Information theory<br>IN - Informatics
Solution timeline
Realization period - beginning
Jan 1, 2023
Realization period - end
Dec 31, 2024
Project status
K - Ending multi-year project
Latest support payment
Apr 24, 2023
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP24-GA0-GA-R
Data delivery date
Feb 19, 2024
Finance
Total approved costs
1,721 thou. CZK
Public financial support
1,721 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK