Corpus-wise extraction of syntactic structures for data-to-text generators
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F23%3AZSKEQTTG" target="_blank" >RIV/00216208:11320/23:ZSKEQTTG - isvavai.cz</a>
Výsledek na webu
<a href="https://repositori.upf.edu/handle/10230/58317" target="_blank" >https://repositori.upf.edu/handle/10230/58317</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Corpus-wise extraction of syntactic structures for data-to-text generators
Popis výsledku v původním jazyce
"La Generación de Lenguaje Natural (NLG) de datos a texto consiste en convertir datos estructurados como se encuentran en la web semántica (por ejemplo, DBpedia, Wikidata, etc.) en textos correctos en las lenguas de llegada. La entrada en el sistema suele ser una serie de triples ”Propiedad (Sujeto, Objeto)” que codifican una gran variedad de tipos de conocimiento. Actualmente existen diferentes enfoques para convertir datos estructurados en texto. Últimamente, las más populares son las técnicas basadas en el aprendizaje automático neuronal, que son poco eficientes energéticamente y carecen de precisión del contenido (alucinaciones, omisiones). Por otra parte, los enfoques simbólicos (basados en reglas) que son precisos y, por tanto, producen textos de salida fiables cuando se alimentan con propiedades conocidas, actualmente son menos utilizados debido a sus limitaciones frente a nuevas propiedades (no vistas) cuando no cuentan con las correspondientes representaciones semánticas. El proyecto pretende abordar este problema común de los enfoques simbólicos mediante el desarrollo de un sistema que convierte a un triple dado en una estructura sintáctica plausible, para ser utilizada más adelante para la creación de las estructuras de ”Predicate-Argumento” delexicalizados necesarias. Las principales tareas del proyecto son extraer un texto semánticamente equivalente al triple de entrada, de un gran corpus conectado con una base de conocimiento estructurada, y transformarlo en representaciones sintácticas genéricas."
Název v anglickém jazyce
Corpus-wise extraction of syntactic structures for data-to-text generators
Popis výsledku anglicky
"La Generación de Lenguaje Natural (NLG) de datos a texto consiste en convertir datos estructurados como se encuentran en la web semántica (por ejemplo, DBpedia, Wikidata, etc.) en textos correctos en las lenguas de llegada. La entrada en el sistema suele ser una serie de triples ”Propiedad (Sujeto, Objeto)” que codifican una gran variedad de tipos de conocimiento. Actualmente existen diferentes enfoques para convertir datos estructurados en texto. Últimamente, las más populares son las técnicas basadas en el aprendizaje automático neuronal, que son poco eficientes energéticamente y carecen de precisión del contenido (alucinaciones, omisiones). Por otra parte, los enfoques simbólicos (basados en reglas) que son precisos y, por tanto, producen textos de salida fiables cuando se alimentan con propiedades conocidas, actualmente son menos utilizados debido a sus limitaciones frente a nuevas propiedades (no vistas) cuando no cuentan con las correspondientes representaciones semánticas. El proyecto pretende abordar este problema común de los enfoques simbólicos mediante el desarrollo de un sistema que convierte a un triple dado en una estructura sintáctica plausible, para ser utilizada más adelante para la creación de las estructuras de ”Predicate-Argumento” delexicalizados necesarias. Las principales tareas del proyecto son extraer un texto semánticamente equivalente al triple de entrada, de un gran corpus conectado con una base de conocimiento estructurada, y transformarlo en representaciones sintácticas genéricas."
Klasifikace
Druh
O - Ostatní výsledky
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
—
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů