Návrh, implementace a vyhodnocení české realistické audiovizuální syntézy řeči
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F06%3A00000105" target="_blank" >RIV/49777513:23520/06:00000105 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/49777513:23520/06:00000011 RIV/49777513:23520/06:00000017
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Design, implementation and evaluation of the Czech realistic audio-visual speech synthesis
Popis výsledku v původním jazyce
This paper presents the whole process of design, implementation and evaluation of the audio-visual speech synthesis system. Such system consists of the acoustic synthesis emulating human speech and the facial animation emulating the human lip articulation. The acoustic speech synthesis is based on concatenation of speech units. The visual subsystem is designed as a realistic, fully three-dimensional parametrically controllable facial animation model. The design, acquisition and processing of audio-visual speech corpus for such purpose is presented. Also, solution to the problem of mapping visual parameters from speech signal either directly or through recognized text is presented. Furthermore, the 3D scanning algorithm is presented. In the end of thispaper, evaluation of intelligibility of the presented audio-visual speech synthesis and its possible applications are presented.
Název v anglickém jazyce
Design, implementation and evaluation of the Czech realistic audio-visual speech synthesis
Popis výsledku anglicky
This paper presents the whole process of design, implementation and evaluation of the audio-visual speech synthesis system. Such system consists of the acoustic synthesis emulating human speech and the facial animation emulating the human lip articulation. The acoustic speech synthesis is based on concatenation of speech units. The visual subsystem is designed as a realistic, fully three-dimensional parametrically controllable facial animation model. The design, acquisition and processing of audio-visual speech corpus for such purpose is presented. Also, solution to the problem of mapping visual parameters from speech signal either directly or through recognized text is presented. Furthermore, the 3D scanning algorithm is presented. In the end of thispaper, evaluation of intelligibility of the presented audio-visual speech synthesis and its possible applications are presented.
Klasifikace
Druh
J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2006
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Signal Processing
ISSN
0165-1684
e-ISSN
—
Svazek periodika
—
Číslo periodika v rámci svazku
—
Stát vydavatele periodika
NL - Nizozemsko
Počet stran výsledku
17
Strana od-do
3657
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—