Detektory řečové aktivity na bázi perceptivní kepstrální analýzy
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F08%3A03147129" target="_blank" >RIV/68407700:21230/08:03147129 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Detektory řečové aktivity na bázi perceptivní kepstrální analýzy
Popis výsledku v původním jazyce
Tento článek se zabývá popisem a implementací detektoru řečové aktivity (VAD) založeného na perceptivní kepstrální analýze řečového signálu. Kepstrální detek- tory vykazují zvýšenou robustnost vůči šumovému pozadí řeči v porovnání s jed- noduššími algoritmy, např. energetickými. Perceptivní analýza řečového signálu realizovaná použitím vhodné banky filtrů s nelineární frekvenční osou pak lépe extrahuje příznaky řečového signálu použitelné pro tuto detekci. Článek popisuje jednotlivé kroky algoritmu detekce s podrobnějším popisem významných bloků a jejich implementacemi v prostředí MATLAB. Práce srovnává použitý detektor se standardním algoritmem používaným v hlasovém kodeku G.729. V závěru je diskutována možnost využití detektoru v různých aplikacích spříkladem použití detektoru v úloze robustního rozpozná- vání řeči, které přineslo zlepšení úspěšnosti rozpoznání řeči téměř o 50%.
Název v anglickém jazyce
Voice Activity Detection Based on Perceptual Cepstral Analysis
Popis výsledku anglicky
This contribution deals with the description and implementation of Voice Activity Detector (VAD) based on perceptual cepstral analysis of speech signal. Cepstral detectors are more robust in noisy enviroment in comparison to simpler algorithms, e.g. energy-based systems. Moreover, perceptual analysis of speech signal extracts the speech features that better describe the signal for the purposes of speech detection by applying filterbank for non-linear frequency scaling. The paper describes particular steps of the detection algorithm together with more detailed description of the most important blocks and their implementation in MATLAB. The work compares the proposed algorithm with standard detection procedure used in voice codec G729. Also possible utilization of the detector based on different algorithms is discussed. Experiments on using proposed VAD algorithms in speech recognition task led to the decrease in recognition error by cca 50%.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JA - Elektronika a optoelektronika, elektrotechnika
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2008
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Technical Computing Prague 2008
ISBN
978-80-7080-692-0
ISSN
—
e-ISSN
—
Počet stran výsledku
9
Strana od-do
—
Název nakladatele
Humusoft
Místo vydání
Praha
Místo konání akce
Praha
Datum konání akce
11. 11. 2008
Typ akce podle státní příslušnosti
EUR - Evropská akce
Kód UT WoS článku
—