Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Corpus-wise extraction of syntactic structures for data-to-text generators

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F23%3AZSKEQTTG" target="_blank" >RIV/00216208:11320/23:ZSKEQTTG - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://repositori.upf.edu/handle/10230/58317" target="_blank" >https://repositori.upf.edu/handle/10230/58317</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Corpus-wise extraction of syntactic structures for data-to-text generators

  • Popis výsledku v původním jazyce

    "La Generación de Lenguaje Natural (NLG) de datos a texto consiste en convertir datos estructurados como se encuentran en la web semántica (por ejemplo, DBpedia, Wikidata, etc.) en textos correctos en las lenguas de llegada. La entrada en el sistema suele ser una serie de triples ”Propiedad (Sujeto, Objeto)” que codifican una gran variedad de tipos de conocimiento. Actualmente existen diferentes enfoques para convertir datos estructurados en texto. Últimamente, las más populares son las técnicas basadas en el aprendizaje automático neuronal, que son poco eficientes energéticamente y carecen de precisión del contenido (alucinaciones, omisiones). Por otra parte, los enfoques simbólicos (basados en reglas) que son precisos y, por tanto, producen textos de salida fiables cuando se alimentan con propiedades conocidas, actualmente son menos utilizados debido a sus limitaciones frente a nuevas propiedades (no vistas) cuando no cuentan con las correspondientes representaciones semánticas. El proyecto pretende abordar este problema común de los enfoques simbólicos mediante el desarrollo de un sistema que convierte a un triple dado en una estructura sintáctica plausible, para ser utilizada más adelante para la creación de las estructuras de ”Predicate-Argumento” delexicalizados necesarias. Las principales tareas del proyecto son extraer un texto semánticamente equivalente al triple de entrada, de un gran corpus conectado con una base de conocimiento estructurada, y transformarlo en representaciones sintácticas genéricas."

  • Název v anglickém jazyce

    Corpus-wise extraction of syntactic structures for data-to-text generators

  • Popis výsledku anglicky

    "La Generación de Lenguaje Natural (NLG) de datos a texto consiste en convertir datos estructurados como se encuentran en la web semántica (por ejemplo, DBpedia, Wikidata, etc.) en textos correctos en las lenguas de llegada. La entrada en el sistema suele ser una serie de triples ”Propiedad (Sujeto, Objeto)” que codifican una gran variedad de tipos de conocimiento. Actualmente existen diferentes enfoques para convertir datos estructurados en texto. Últimamente, las más populares son las técnicas basadas en el aprendizaje automático neuronal, que son poco eficientes energéticamente y carecen de precisión del contenido (alucinaciones, omisiones). Por otra parte, los enfoques simbólicos (basados en reglas) que son precisos y, por tanto, producen textos de salida fiables cuando se alimentan con propiedades conocidas, actualmente son menos utilizados debido a sus limitaciones frente a nuevas propiedades (no vistas) cuando no cuentan con las correspondientes representaciones semánticas. El proyecto pretende abordar este problema común de los enfoques simbólicos mediante el desarrollo de un sistema que convierte a un triple dado en una estructura sintáctica plausible, para ser utilizada más adelante para la creación de las estructuras de ”Predicate-Argumento” delexicalizados necesarias. Las principales tareas del proyecto son extraer un texto semánticamente equivalente al triple de entrada, de un gran corpus conectado con una base de conocimiento estructurada, y transformarlo en representaciones sintácticas genéricas."

Klasifikace

  • Druh

    O - Ostatní výsledky

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

  • Návaznosti

Ostatní

  • Rok uplatnění

    2023

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů