Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

MQDD: Pre-training of Multimodal Question Duplicity Detection for Software Engineering Domain

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F23%3A43970053" target="_blank" >RIV/49777513:23520/23:43970053 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://aclanthology.org/2023.ranlp-1.89/" target="_blank" >https://aclanthology.org/2023.ranlp-1.89/</a>

  • DOI - Digital Object Identifier

    <a href="http://dx.doi.org/10.26615/978-954-452-092-2_089" target="_blank" >10.26615/978-954-452-092-2_089</a>

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    MQDD: Pre-training of Multimodal Question Duplicity Detection for Software Engineering Domain

  • Popis výsledku v původním jazyce

    This work proposes a new pipeline for leveraging data collected on the Stack Overflow website for pre-training a multimodal model for searching duplicates on question answering websites. Our multimodal model is trained on question descriptions and source codes in multiple programming languages. We design two new learning objectives to improve duplicate detection capabilities. The result of this work is a mature, fine-tuned Multimodal Question Duplicity Detection (MQDD) model, ready to be integrated into a Stack Overflow search system, where it can help users find answers for already answered questions. Alongside the MQDD model, we release two datasets related to the software engineering domain. The first Stack Overflow Dataset (SOD) represents a massive corpus of paired questions and answers. The second Stack Overflow Duplicity Dataset (SODD) contains data for training duplicate detection models.

  • Název v anglickém jazyce

    MQDD: Pre-training of Multimodal Question Duplicity Detection for Software Engineering Domain

  • Popis výsledku anglicky

    This work proposes a new pipeline for leveraging data collected on the Stack Overflow website for pre-training a multimodal model for searching duplicates on question answering websites. Our multimodal model is trained on question descriptions and source codes in multiple programming languages. We design two new learning objectives to improve duplicate detection capabilities. The result of this work is a mature, fine-tuned Multimodal Question Duplicity Detection (MQDD) model, ready to be integrated into a Stack Overflow search system, where it can help users find answers for already answered questions. Alongside the MQDD model, we release two datasets related to the software engineering domain. The first Stack Overflow Dataset (SOD) represents a massive corpus of paired questions and answers. The second Stack Overflow Duplicity Dataset (SODD) contains data for training duplicate detection models.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

  • Návaznosti

    S - Specificky vyzkum na vysokych skolach

Ostatní

  • Rok uplatnění

    2023

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Deep Learning for Natural Language Processing Methods and Applications

  • ISBN

    978-954-452-092-2

  • ISSN

  • e-ISSN

    2603-2813

  • Počet stran výsledku

    12

  • Strana od-do

    824-835

  • Název nakladatele

    INCOMA Ltd.

  • Místo vydání

    Shoumen

  • Místo konání akce

    Varna

  • Datum konání akce

    4. 9. 2023

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku