Automatic Evaluation of Synthetic Speech Quality by a System Based on Statistical Analysis
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F18%3A43952591" target="_blank" >RIV/49777513:23520/18:43952591 - isvavai.cz</a>
Výsledek na webu
<a href="https://link.springer.com/chapter/10.1007%2F978-3-030-00794-2_34" target="_blank" >https://link.springer.com/chapter/10.1007%2F978-3-030-00794-2_34</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-030-00794-2_34" target="_blank" >10.1007/978-3-030-00794-2_34</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Automatic Evaluation of Synthetic Speech Quality by a System Based on Statistical Analysis
Popis výsledku v původním jazyce
The paper describes a system for automatic evaluation of speech quality based on statistical analysis of differences in spectral properties, prosodic parameters, and time structuring within the speech signal. The proposed system was successfully tested in evaluation of sentences originating from male and female voices and produced by a speech synthesizer using the unit selection method with two different approaches to prosody manipulation. The experiments show necessity of all three types of speech features for obtaining correct, sharp, and stable results. A detailed analysis shows great influence of the number of statistical parameters on correctness and precision of the evaluated results. Larger size of the processed speech material has a positive impact on stability of the evaluation process. Final comparison documents basic correlation with the results obtained by the standard listening test.
Název v anglickém jazyce
Automatic Evaluation of Synthetic Speech Quality by a System Based on Statistical Analysis
Popis výsledku anglicky
The paper describes a system for automatic evaluation of speech quality based on statistical analysis of differences in spectral properties, prosodic parameters, and time structuring within the speech signal. The proposed system was successfully tested in evaluation of sentences originating from male and female voices and produced by a speech synthesizer using the unit selection method with two different approaches to prosody manipulation. The experiments show necessity of all three types of speech features for obtaining correct, sharp, and stable results. A detailed analysis shows great influence of the number of statistical parameters on correctness and precision of the evaluated results. Larger size of the processed speech material has a positive impact on stability of the evaluation process. Final comparison documents basic correlation with the results obtained by the standard listening test.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/GA16-04420S" target="_blank" >GA16-04420S: Kombinované využití fonetických a korpusově založených postupů při odstraňování rušivých jevů v řečové syntéze</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2018
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Text, Speech, and Dialogue 21st International Conference, TSD 2018, Brno, Czech Republic, September 11-14, 2018, Proceedings
ISBN
978-3-030-00793-5
ISSN
0302-9743
e-ISSN
1611-3349
Počet stran výsledku
9
Strana od-do
315-323
Název nakladatele
Springer Nature Switzerland AG
Místo vydání
Cham
Místo konání akce
Brno, Czech Republic
Datum konání akce
11. 9. 2018
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—