A Pitch Detection Algorithm for Continuous Speech Signals Using Viterbi Traceback with Temporal Forgetting
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F11%3A00183926" target="_blank" >RIV/68407700:21230/11:00183926 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
A Pitch Detection Algorithm for Continuous Speech Signals Using Viterbi Traceback with Temporal Forgetting
Popis výsledku v původním jazyce
This paper presents a pitch-detection algorithm (PDA) for application to signals containing continuous speech. The core of the method is based on merged normalized forward-backward correlation (MNFBC) working in a time domain with the ability to make basic voicing decision. Viterbi traceback procedure is used for post-processing the MNFBC output considering the three best fundamantal frequencies (F0) in each step. This should make the pitch contour smoother and should also prevent octave errors. In transition probabilities computation between F0 candidates, two major improvements were made over existing post-processing methods. Firstly, we compare pitch distance in musical cents. Secondly, temporal forgetting is applied to avoid penalizing pitch jumpsafter prosodic pauses of one speaker or changes in pitch in dialog turn-takings. Results computed on a pitch-reference database show the benefit of the first improvement, but they have not yet proved any benefit of the second.
Název v anglickém jazyce
A Pitch Detection Algorithm for Continuous Speech Signals Using Viterbi Traceback with Temporal Forgetting
Popis výsledku anglicky
This paper presents a pitch-detection algorithm (PDA) for application to signals containing continuous speech. The core of the method is based on merged normalized forward-backward correlation (MNFBC) working in a time domain with the ability to make basic voicing decision. Viterbi traceback procedure is used for post-processing the MNFBC output considering the three best fundamantal frequencies (F0) in each step. This should make the pitch contour smoother and should also prevent octave errors. In transition probabilities computation between F0 candidates, two major improvements were made over existing post-processing methods. Firstly, we compare pitch distance in musical cents. Secondly, temporal forgetting is applied to avoid penalizing pitch jumpsafter prosodic pauses of one speaker or changes in pitch in dialog turn-takings. Results computed on a pitch-reference database show the benefit of the first improvement, but they have not yet proved any benefit of the second.
Klasifikace
Druh
J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2011
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Acta Polytechnica
ISSN
1210-2709
e-ISSN
—
Svazek periodika
51
Číslo periodika v rámci svazku
5
Stát vydavatele periodika
CZ - Česká republika
Počet stran výsledku
6
Strana od-do
8-13
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—