All
All

What are you looking for?

All
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Transformers of multiple modalities for more natural spoken dialog

Project goals

The goal of the project is the research of more natural spoken dialog systems based on the Transformer framework. Since Transformers could be used in sequence-to-sequence scenarios, their use in natural language understanding and generation is common. We would like to focus on the cases where the input or output of a neural network is speech. To convert speech into semantic representation or dialog intents we will be using the speech recognizer as a black-box but we plan to develop novel methods and approaches to process speech lattices in the general Transformer or recurrent neural networks. The inverse process of generating speech from intents will employ the pre-trained Transformer models for language generation and the recent DNN-based speech synthesis architectures. The dialog management will use the attention neural mechanisms to keep track of the dialog state and to generate consistent prompts in an informal or conversational style. The challenging task of speech synthesis using the given speech style will be backed by the recorded corpus of conversational speech.

Keywords

spoken dialogspeech synthesisTransformerdeep learning

Public support

  • Provider

    Czech Science Foundation

  • Programme

    Standard projects

  • Call for proposals

    SGA0202200004

  • Main participants

    Západočeská univerzita v Plzni / Fakulta aplikovaných věd

  • Contest type

    VS - Public tender

  • Contract ID

    22-27800S

Alternative language

  • Project name in Czech

    Využití vícemodálních Transformerů pro přirozenější hlasový dialog

  • Annotation in Czech

    Cílem projektu je výzkum přirozenějších hlasových dialogových systémů založených na Transformerech. Vzhledem k tomu, že Transformery lze použít v úlohách typu sequence-to-sequence, běžně se využívají v úlohách porozumění přirozenému jazyku a generování přirozeného jazyka. V projektu se chceme zaměřit na případy, kdy vstupem nebo výstupem neuronové sítě je řeč. K převodu řeči na sémantickou reprezentaci nebo dialogové záměry využijeme rozpoznávač řeči jako černou skříňku, pro zpracování výstupních řečových mřížek v obecném Transformeru nebo rekurentních neuronových sítích ale plánujeme vyvinout nové metody a přístupy. Inverzní proces generování řeči ze záměrů bude využívat předtrénované modely Transformerů pro generování jazyka a moderní architektury syntézy řeči založené na DNN. Řízení dialogu bude využívat neurální attention mechanismy ke sledování stavu dialogu a ke generování konzistentních výstupů v neformálním nebo konverzačním stylu. Pro náročný úkol syntézy řeči v daném řečovém stylu plánujeme vytvořit vlastní korpus konverzační řeči.

Scientific branches

  • R&D category

    ZV - Basic research

  • OECD FORD - main branch

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

  • OECD FORD - secondary branch

    20205 - Automation and control systems

  • OECD FORD - another secondary branch

  • AF - Documentation, librarianship, work with information
    BC - Theory and management systems
    BD - Information theory
    IN - Informatics
    JD - Use of computers, robotics and its application

Solution timeline

  • Realization period - beginning

    Jan 1, 2022

  • Realization period - end

    Dec 31, 2024

  • Project status

  • Latest support payment

    Feb 29, 2024

Data delivery to CEP

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

  • Data delivery code

    CEP25-GA0-GA-R

  • Data delivery date

    Mar 12, 2025

Finance

  • Total approved costs

    6,810 thou. CZK

  • Public financial support

    6,471 thou. CZK

  • Other public sources

    339 thou. CZK

  • Non public and foreign sources

    0 thou. CZK

Basic information

Recognised costs

6 810 CZK thou.

Public support

6 471 CZK thou.

95%


Provider

Czech Science Foundation

OECD FORD

Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Solution period

01. 01. 2022 - 31. 12. 2024