Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Neural Pipeline for Zero-Shot Data-to-Text Generation

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F22%3A10457007" target="_blank" >RIV/00216208:11320/22:10457007 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://aclanthology.org/2022.acl-long.271/" target="_blank" >https://aclanthology.org/2022.acl-long.271/</a>

  • DOI - Digital Object Identifier

    <a href="http://dx.doi.org/10.18653/v1/2022.acl-long.271" target="_blank" >10.18653/v1/2022.acl-long.271</a>

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Neural Pipeline for Zero-Shot Data-to-Text Generation

  • Popis výsledku v původním jazyce

    In data-to-text (D2T) generation, training on in-domain data leads to overfitting to the data representation and repeating training data noise. We examine how to avoid finetuning pretrained language models (PLMs) on D2T generation datasets while still taking advantage of surface realization capabilities of PLMs. Inspired by pipeline approaches, we propose to generate text by transforming single-item descriptions with a sequence of modules trained on general-domain text-based operations: ordering, aggregation, and paragraph compression. We train PLMs for performing these operations on a synthetic corpus WikiFluent which we build from English Wikipedia. Our experiments on two major triple-to-text datasets - WebNLG and E2E - show that our approach enables D2T generation from RDF triples in zero-shot settings.

  • Název v anglickém jazyce

    Neural Pipeline for Zero-Shot Data-to-Text Generation

  • Popis výsledku anglicky

    In data-to-text (D2T) generation, training on in-domain data leads to overfitting to the data representation and repeating training data noise. We examine how to avoid finetuning pretrained language models (PLMs) on D2T generation datasets while still taking advantage of surface realization capabilities of PLMs. Inspired by pipeline approaches, we propose to generate text by transforming single-item descriptions with a sequence of modules trained on general-domain text-based operations: ordering, aggregation, and paragraph compression. We train PLMs for performing these operations on a synthetic corpus WikiFluent which we build from English Wikipedia. Our experiments on two major triple-to-text datasets - WebNLG and E2E - show that our approach enables D2T generation from RDF triples in zero-shot settings.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

  • Návaznosti

    S - Specificky vyzkum na vysokych skolach<br>I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace

Ostatní

  • Rok uplatnění

    2022

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics: ACL 2022

  • ISBN

    978-1-955917-21-6

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    19

  • Strana od-do

    3914-3932

  • Název nakladatele

    Association for Computational Linguistics

  • Místo vydání

    Stroudsburg, PA, USA

  • Místo konání akce

    Dublin, Ireland

  • Datum konání akce

    22. 5. 2022

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku