Anomaly-Based Annotation Errors Detection in TTS Corpora
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F15%3A43926613" target="_blank" >RIV/49777513:23520/15:43926613 - isvavai.cz</a>
Výsledek na webu
<a href="http://www.isca-speech.org/archive/interspeech_2015/i15_0314.html" target="_blank" >http://www.isca-speech.org/archive/interspeech_2015/i15_0314.html</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Anomaly-Based Annotation Errors Detection in TTS Corpora
Popis výsledku v původním jazyce
In this paper we adopt several anomaly detection methods to detect annotation errors in single-speaker read-speech corpora used for text-to-speech (TTS) synthesis. Correctly annotated words are considered as normal examples on which the detec- tion methods are trained. Misannotated words are then taken as anomalous examples which do not conform to normal patterns of the trained detection models. Word-level feature sets including basic features derived from forced alignment, and various acoustic, spectral, phonetic, and positional features were examined. Dimensionality reduction techniques were also applied to reduce the number of features. The first results with F1 score being almost 89% show that anomaly detection could help in detecting annotation errors in read-speech corpora for TTS synthesis.
Název v anglickém jazyce
Anomaly-Based Annotation Errors Detection in TTS Corpora
Popis výsledku anglicky
In this paper we adopt several anomaly detection methods to detect annotation errors in single-speaker read-speech corpora used for text-to-speech (TTS) synthesis. Correctly annotated words are considered as normal examples on which the detec- tion methods are trained. Misannotated words are then taken as anomalous examples which do not conform to normal patterns of the trained detection models. Word-level feature sets including basic features derived from forced alignment, and various acoustic, spectral, phonetic, and positional features were examined. Dimensionality reduction techniques were also applied to reduce the number of features. The first results with F1 score being almost 89% show that anomaly detection could help in detecting annotation errors in read-speech corpora for TTS synthesis.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/TA01030476" target="_blank" >TA01030476: Inteligentní technologie pro zvýšení bezpečnosti letového provozu</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2015
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the 16th Annual Conference of the International Speech Communication Association (Interspeech 2015)
ISBN
978-1-5108-1790-6
ISSN
2308-457X
e-ISSN
—
Počet stran výsledku
5
Strana od-do
314-318
Název nakladatele
Curran Associates, Inc.
Místo vydání
New York
Místo konání akce
Dresden, Germany
Datum konání akce
6. 9. 2015
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000380581600064