Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Identifikace a prevence nechtěné genderové zaujatosti v neuronových jazykových modelech

Veřejná podpora

  • Poskytovatel

    Grantová agentura České republiky

  • Program

    Standardní projekty

  • Veřejná soutěž

    SGA0202300001

  • Hlavní účastníci

    Univerzita Karlova / Matematicko-fyzikální fakulta

  • Druh soutěže

    VS - Veřejná soutěž

  • Číslo smlouvy

    23-06912S

Alternativní jazyk

  • Název projektu anglicky

    Identification and Prevention of Unwanted Gender Bias in Neural Language Models

  • Anotace anglicky

    Recent years saw a remarkable success of deep neural networks in a wide range of Natural Language Processing tasks (e.g. machine translation or question answering). Large neural networks exhibit black-box behavior. We can observe only the inputs and outputs of the model and everything else is opaque. It has been shown that models trained on large raw corpora are vulnerable to learning unfair biases present in the data. This project aims to investigate gender biases learned by Transformer, a widely used neural network in NLP. We will analyze Transformer's contextual representations of words and search for a transformation that would project them to a vector space in which gender-bias is well separated and can be filtered out. At the same time, we want to keep other factual gender information as pronouns or gendered words like `boy' or `queen', which makes this task challenging. Our methods will be generalized to machine translation from English to morphologically rich languages, to mitigate the gender-bias and reducing gender mistakes in the generated output texts.

Vědní obory

  • Kategorie VaV

    ZV - Základní výzkum

  • OECD FORD - hlavní obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

  • OECD FORD - vedlejší obor

  • OECD FORD - další vedlejší obor

  • CEP - odpovídající obory <br>(dle <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">převodníku</a>)

    AF - Dokumentace, knihovnictví, práce s informacemi<br>BC - Teorie a systémy řízení<br>BD - Teorie informace<br>IN - Informatika

Termíny řešení

  • Zahájení řešení

    1. 1. 2023

  • Ukončení řešení

    31. 12. 2024

  • Poslední stav řešení

    K - Končící víceletý projekt

  • Poslední uvolnění podpory

    24. 4. 2023

Dodání dat do CEP

  • Důvěrnost údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Systémové označení dodávky dat

    CEP24-GA0-GA-R

  • Datum dodání záznamu

    19. 2. 2024

Finance

  • Celkové uznané náklady

    1 721 tis. Kč

  • Výše podpory ze státního rozpočtu

    1 721 tis. Kč

  • Ostatní veřejné zdroje financování

    0 tis. Kč

  • Neveřejné tuz. a zahr. zdroje finan.

    0 tis. Kč