Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Query-Based Keyphrase Extraction from Long Documents

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F22%3APU145669" target="_blank" >RIV/00216305:26230/22:PU145669 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://journals.flvc.org/FLAIRS/article/view/130737" target="_blank" >https://journals.flvc.org/FLAIRS/article/view/130737</a>

  • DOI - Digital Object Identifier

    <a href="http://dx.doi.org/10.32473/flairs.v35i.130737" target="_blank" >10.32473/flairs.v35i.130737</a>

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Query-Based Keyphrase Extraction from Long Documents

  • Popis výsledku v původním jazyce

    Transformer-based architectures in natural language processing force input size limits that can be problematic when long documents need to be processed. This paper overcomes this issue for keyphrase extraction by chunking the long documents while keeping a global context as a query defining the topic for which relevant keyphrases should be extracted. The developed system employs a pre-trained BERT model and adapts it to estimate the probability that a given text span forms a keyphrase. We experimented using various context sizes on two popular datasets, Inspec and SemEval, and a large novel dataset. The presented results show that a shorter context with a query overcomes a longer one without the query on long documents.

  • Název v anglickém jazyce

    Query-Based Keyphrase Extraction from Long Documents

  • Popis výsledku anglicky

    Transformer-based architectures in natural language processing force input size limits that can be problematic when long documents need to be processed. This paper overcomes this issue for keyphrase extraction by chunking the long documents while keeping a global context as a query defining the topic for which relevant keyphrases should be extracted. The developed system employs a pre-trained BERT model and adapts it to estimate the probability that a given text span forms a keyphrase. We experimented using various context sizes on two popular datasets, Inspec and SemEval, and a large novel dataset. The presented results show that a shorter context with a query overcomes a longer one without the query on long documents.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/FW03010656" target="_blank" >FW03010656: Multilingvální asistent pro hledání, analýzu a zpracování informací a podporu rozhodování</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2022

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    The International FLAIRS Conference Proceedings

  • ISBN

  • ISSN

    2334-0762

  • e-ISSN

  • Počet stran výsledku

    4

  • Strana od-do

    1-4

  • Název nakladatele

    LibraryPress@UF

  • Místo vydání

    Jensen Beach

  • Místo konání akce

    Hutchinson Island, Jensen Beach, Florida, USA

  • Datum konání akce

    15. 5. 2022

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku