Corpus-wise extraction of syntactic structures for data-to-text generators
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F23%3AZSKEQTTG" target="_blank" >RIV/00216208:11320/23:ZSKEQTTG - isvavai.cz</a>
Result on the web
<a href="https://repositori.upf.edu/handle/10230/58317" target="_blank" >https://repositori.upf.edu/handle/10230/58317</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
angličtina
Original language name
Corpus-wise extraction of syntactic structures for data-to-text generators
Original language description
"La Generación de Lenguaje Natural (NLG) de datos a texto consiste en convertir datos estructurados como se encuentran en la web semántica (por ejemplo, DBpedia, Wikidata, etc.) en textos correctos en las lenguas de llegada. La entrada en el sistema suele ser una serie de triples ”Propiedad (Sujeto, Objeto)” que codifican una gran variedad de tipos de conocimiento. Actualmente existen diferentes enfoques para convertir datos estructurados en texto. Últimamente, las más populares son las técnicas basadas en el aprendizaje automático neuronal, que son poco eficientes energéticamente y carecen de precisión del contenido (alucinaciones, omisiones). Por otra parte, los enfoques simbólicos (basados en reglas) que son precisos y, por tanto, producen textos de salida fiables cuando se alimentan con propiedades conocidas, actualmente son menos utilizados debido a sus limitaciones frente a nuevas propiedades (no vistas) cuando no cuentan con las correspondientes representaciones semánticas. El proyecto pretende abordar este problema común de los enfoques simbólicos mediante el desarrollo de un sistema que convierte a un triple dado en una estructura sintáctica plausible, para ser utilizada más adelante para la creación de las estructuras de ”Predicate-Argumento” delexicalizados necesarias. Las principales tareas del proyecto son extraer un texto semánticamente equivalente al triple de entrada, de un gran corpus conectado con una base de conocimiento estructurada, y transformarlo en representaciones sintácticas genéricas."
Czech name
—
Czech description
—
Classification
Type
O - Miscellaneous
CEP classification
—
OECD FORD branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Result continuities
Project
—
Continuities
—
Others
Publication year
2023
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů