Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Exploring the Impact of Training Data Distribution and Subword Tokenization on Gender Bias in Machine Translation

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F23%3A10475930" target="_blank" >RIV/00216208:11320/23:10475930 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://www.afnlp.org/conferences/ijcnlp2023/proceedings/main-long/cdrom/pdf/2023.ijcnlp-long.57.pdf" target="_blank" >http://www.afnlp.org/conferences/ijcnlp2023/proceedings/main-long/cdrom/pdf/2023.ijcnlp-long.57.pdf</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Exploring the Impact of Training Data Distribution and Subword Tokenization on Gender Bias in Machine Translation

  • Popis výsledku v původním jazyce

    We study the effect of tokenization on gender bias in machine translation, an aspect that has been largely overlooked in previous works. Specifically, we focus on the interactions between the frequency of gendered profession names in training data, their representation in the subword tokenizer&apos;s vocabulary, and gender bias. We observe that female and non-stereotypical gender inflections of profession names (e.g., Spanish &quot;doctora&quot; for &quot;female doctor&quot;) tend to be split into multiple subword tokens. Our results indicate that the imbalance of gender forms in the model&apos;s training corpus is a major factor contributing to gender bias and has a greater impact than subword splitting. We show that analyzing subword splits provides good estimates of gender-form imbalance in the training data and can be used even when the corpus is not publicly available. We also demonstrate that fine-tuning just the token embedding layer can decrease the gap in gender prediction accuracy between female and male forms without impairing the translation quality.

  • Název v anglickém jazyce

    Exploring the Impact of Training Data Distribution and Subword Tokenization on Gender Bias in Machine Translation

  • Popis výsledku anglicky

    We study the effect of tokenization on gender bias in machine translation, an aspect that has been largely overlooked in previous works. Specifically, we focus on the interactions between the frequency of gendered profession names in training data, their representation in the subword tokenizer&apos;s vocabulary, and gender bias. We observe that female and non-stereotypical gender inflections of profession names (e.g., Spanish &quot;doctora&quot; for &quot;female doctor&quot;) tend to be split into multiple subword tokens. Our results indicate that the imbalance of gender forms in the model&apos;s training corpus is a major factor contributing to gender bias and has a greater impact than subword splitting. We show that analyzing subword splits provides good estimates of gender-form imbalance in the training data and can be used even when the corpus is not publicly available. We also demonstrate that fine-tuning just the token embedding layer can decrease the gap in gender prediction accuracy between female and male forms without impairing the translation quality.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/GA23-06912S" target="_blank" >GA23-06912S: Identifikace a prevence nechtěné genderové zaujatosti v neuronových jazykových modelech</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2023

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Proceedings of the 13th International Joint Conference on Natural Language Processing and the 3rd Conference of the Asia-Pacific Chapter of the Association for Computational Linguistics (Volume 1: Long Papers)

  • ISBN

    979-8-89176-014-1

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    12

  • Strana od-do

    885-896

  • Název nakladatele

    Association for Computational Linguistics

  • Místo vydání

    Stroudsburg, PA, USA

  • Místo konání akce

    Nusa Dua, Bali, Indonesia

  • Datum konání akce

    1. 11. 2023

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku