Synthetic Speech Evaluation by Differential Maps in Pleasure-Arousal Space
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F20%3A43959828" target="_blank" >RIV/49777513:23520/20:43959828 - isvavai.cz</a>
Výsledek na webu
<a href="https://link.springer.com/chapter/10.1007/978-3-030-60276-5_41" target="_blank" >https://link.springer.com/chapter/10.1007/978-3-030-60276-5_41</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-030-60276-5_41" target="_blank" >10.1007/978-3-030-60276-5_41</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Synthetic Speech Evaluation by Differential Maps in Pleasure-Arousal Space
Popis výsledku v původním jazyce
The paper deals with automatic evaluation of the quality of synthetic speech using Gaussian mixture models (GMM) for classification in the Pleasure-Arousal (P-A) scale and subsequently calculated 2D and 3D P-A differentials maps. The speech synthesized from the voice of a speaker is compared with the original voice of the same speaker. Three methods of speech synthesis are ordered by descending 3D perceptual distances from the original speech material. Basic experiments confirm the principal functionality of the developed system. The detailed analysis shows a great influence of the number of mixture components, the size of the processed speech material, and the type of the database for GMM creation on partial results of the continual P-A detection and the final results. The objective evaluation results are finally compared with the subjective ratings by human evaluators.
Název v anglickém jazyce
Synthetic Speech Evaluation by Differential Maps in Pleasure-Arousal Space
Popis výsledku anglicky
The paper deals with automatic evaluation of the quality of synthetic speech using Gaussian mixture models (GMM) for classification in the Pleasure-Arousal (P-A) scale and subsequently calculated 2D and 3D P-A differentials maps. The speech synthesized from the voice of a speaker is compared with the original voice of the same speaker. Three methods of speech synthesis are ordered by descending 3D perceptual distances from the original speech material. Basic experiments confirm the principal functionality of the developed system. The detailed analysis shows a great influence of the number of mixture components, the size of the processed speech material, and the type of the database for GMM creation on partial results of the continual P-A detection and the final results. The objective evaluation results are finally compared with the subjective ratings by human evaluators.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/GA19-19324S" target="_blank" >GA19-19324S: Plně trénovatelná syntéza české řeči z textu s využitím hlubokých neuronových sítí</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2020
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Speech and Computer 22nd International Conference, SPECOM 2020, St. Petersburg, Russia, October 7-9, 2020, Proceedings
ISBN
978-3-030-60275-8
ISSN
0302-9743
e-ISSN
1611-3349
Počet stran výsledku
11
Strana od-do
424-434
Název nakladatele
Springer
Místo vydání
Cham
Místo konání akce
St. Petersburg, Russia
Datum konání akce
7. 10. 2020
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—