Identifikace a prevence nechtěné genderové zaujatosti v neuronových jazykových modelech
Veřejná podpora
Poskytovatel
Grantová agentura České republiky
Program
Standardní projekty
Veřejná soutěž
SGA0202300001
Hlavní účastníci
Univerzita Karlova / Matematicko-fyzikální fakulta
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
23-06912S
Alternativní jazyk
Název projektu anglicky
Identification and Prevention of Unwanted Gender Bias in Neural Language Models
Anotace anglicky
Recent years saw a remarkable success of deep neural networks in a wide range of Natural Language Processing tasks (e.g. machine translation or question answering). Large neural networks exhibit black-box behavior. We can observe only the inputs and outputs of the model and everything else is opaque. It has been shown that models trained on large raw corpora are vulnerable to learning unfair biases present in the data. This project aims to investigate gender biases learned by Transformer, a widely used neural network in NLP. We will analyze Transformer's contextual representations of words and search for a transformation that would project them to a vector space in which gender-bias is well separated and can be filtered out. At the same time, we want to keep other factual gender information as pronouns or gendered words like `boy' or `queen', which makes this task challenging. Our methods will be generalized to machine translation from English to morphologically rich languages, to mitigate the gender-bias and reducing gender mistakes in the generated output texts.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
OECD FORD - hlavní obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - vedlejší obor
—
OECD FORD - další vedlejší obor
—
CEP - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)
AF - Dokumentace, knihovnictví, práce s informacemi<br>BC - Teorie a systémy řízení<br>BD - Teorie informace<br>IN - Informatika
Termíny řešení
Zahájení řešení
1. 1. 2023
Ukončení řešení
31. 12. 2024
Poslední stav řešení
K - Končící víceletý projekt
Poslední uvolnění podpory
24. 4. 2023
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP24-GA0-GA-R
Datum dodání záznamu
19. 2. 2024
Finance
Celkové uznané náklady
1 721 tis. Kč
Výše podpory ze státního rozpočtu
1 721 tis. Kč
Ostatní veřejné zdroje financování
0 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč