Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Is Transformer-Based Attention Agnostic of the Pretraining Language and Task?

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F25%3AX7T7VVAC" target="_blank" >RIV/00216208:11320/25:X7T7VVAC - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://www.scopus.com/inward/record.uri?eid=2-s2.0-85200685211&doi=10.1007%2f978-3-031-64881-6_6&partnerID=40&md5=a62794440b7cf4cb3595f122ce95dac7" target="_blank" >https://www.scopus.com/inward/record.uri?eid=2-s2.0-85200685211&doi=10.1007%2f978-3-031-64881-6_6&partnerID=40&md5=a62794440b7cf4cb3595f122ce95dac7</a>

  • DOI - Digital Object Identifier

    <a href="http://dx.doi.org/10.1007/978-3-031-64881-6_6" target="_blank" >10.1007/978-3-031-64881-6_6</a>

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Is Transformer-Based Attention Agnostic of the Pretraining Language and Task?

  • Popis výsledku v původním jazyce

    Since the introduction of the Transformer by Vaswani et al. in 2017, the attention mechanism has been used in multiple state-of-the-art large language models (LLMs), such as BERT, ELECTRA, and various GPT versions. Due to the complexity and the large size of LLMs and deep neural networks in general, intelligible explanations for specific model outputs can be difficult to formulate. However, mechanistic interpretability research aims to make this problem more tractable. In this paper, we show that models with different training objectives—namely, masked language modelling and replaced token detection—have similar internal patterns of attention, even when trained for different languages, in our case English, Afrikaans, Xhosa, and Zulu. This result suggests that, on a high level, the learnt role of attention is language-agnostic. © The Author(s), under exclusive license to Springer Nature Switzerland AG 2024.

  • Název v anglickém jazyce

    Is Transformer-Based Attention Agnostic of the Pretraining Language and Task?

  • Popis výsledku anglicky

    Since the introduction of the Transformer by Vaswani et al. in 2017, the attention mechanism has been used in multiple state-of-the-art large language models (LLMs), such as BERT, ELECTRA, and various GPT versions. Due to the complexity and the large size of LLMs and deep neural networks in general, intelligible explanations for specific model outputs can be difficult to formulate. However, mechanistic interpretability research aims to make this problem more tractable. In this paper, we show that models with different training objectives—namely, masked language modelling and replaced token detection—have similar internal patterns of attention, even when trained for different languages, in our case English, Afrikaans, Xhosa, and Zulu. This result suggests that, on a high level, the learnt role of attention is language-agnostic. © The Author(s), under exclusive license to Springer Nature Switzerland AG 2024.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

  • Návaznosti

Ostatní

  • Rok uplatnění

    2024

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Commun. Comput. Info. Sci.

  • ISBN

    978-303164880-9

  • ISSN

    1865-0929

  • e-ISSN

  • Počet stran výsledku

    29

  • Strana od-do

    95-123

  • Název nakladatele

    Springer Science and Business Media Deutschland GmbH

  • Místo vydání

  • Místo konání akce

    Gqeberha

  • Datum konání akce

    1. 1. 2025

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku