All
All

What are you looking for?

All
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Identification and Prevention of Unwanted Gender Bias in Neural Language Models

Project goals

Recent years saw a remarkable success of deep neural networks in a wide range of Natural Language Processing tasks (e.g. machine translation or question answering). Large neural networks exhibit black-box behavior. We can observe only the inputs and outputs of the model and everything else is opaque. It has been shown that models trained on large raw corpora are vulnerable to learning unfair biases present in the data. This project aims to investigate gender biases learned by Transformer, a widely used neural network in NLP. We will analyze Transformer's contextual representations of words and search for a transformation that would project them to a vector space in which gender-bias is well separated and can be filtered out. At the same time, we want to keep other factual gender information as pronouns or gendered words like `boy' or `queen', which makes this task challenging. Our methods will be generalized to machine translation from English to morphologically rich languages, to mitigate the gender-bias and reducing gender mistakes in the generated output texts.

Keywords

neural networklanguage modeltransformergender biasword representation

Public support

  • Provider

    Czech Science Foundation

  • Programme

    Standard projects

  • Call for proposals

    SGA0202300001

  • Main participants

    Univerzita Karlova / Matematicko-fyzikální fakulta

  • Contest type

    VS - Public tender

  • Contract ID

    23-06912S

Alternative language

  • Project name in Czech

    Identifikace a prevence nechtěné genderové zaujatosti v neuronových jazykových modelech

  • Annotation in Czech

    V minulých letech zaznamenaly hluboké neuronové sítě obrovský úspěch v široké škále úkolů z oblasti zpracování přirozeného jazyka (např. strojový překlad nebo odpovídání na otázky). Tyto sítě se však chovají jako černá skříňka. Pozorujeme pouze vstupy a výstupy modelů a vše ostatní zůstává skryto. Ukazuje se, že modely natrénované na obrovských jazykových datech jsou citlivé na učení se nespravedlivých předsudků v těchto datech obsažených. Tento projekt si klade za cíl prozkoumat genderové předsudky naučené široce používanou sítí Transformer. Budeme analyzovat kontextové reprezentace slov v Transformeru a hledat transformace, které by je promítly do vektorového prostoru, kde půjdou genderové předsudky dobře oddělit a odfiltrovat. Současně však budeme chtít zachovat ostatní informace o rodech například v zájmenech nebo ve slovech jako `kluk' nebo `královna', což značně tento problém zesložiťuje. Naše metody budou dále zobecněny pro použití ve strojovém překladu z angličtiny do morfologicky bohatších jazyků s cílem zmírnit gendrovou zaujatost a zmenšit monžství překladových chyb v rodě

Scientific branches

  • R&D category

    ZV - Basic research

  • OECD FORD - main branch

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

  • OECD FORD - secondary branch

    60203 - Linguistics

  • OECD FORD - another secondary branch

  • AF - Documentation, librarianship, work with information
    AI - Linguistics
    BC - Theory and management systems
    BD - Information theory
    IN - Informatics

Solution timeline

  • Realization period - beginning

    Jan 1, 2023

  • Realization period - end

    Dec 31, 2024

  • Project status

  • Latest support payment

    Feb 29, 2024

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP25-GA0-GA-R

  • Data delivery date

    Mar 12, 2025

Finance

  • Total approved costs

    1,721 thou. CZK

  • Public financial support

    1,721 thou. CZK

  • Other public sources

    0 thou. CZK

  • Non public and foreign sources

    0 thou. CZK

Basic information

Recognised costs

1 721 CZK thou.

Public support

1 721 CZK thou.

100%


Provider

Czech Science Foundation

OECD FORD

Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Solution period

01. 01. 2023 - 31. 12. 2024