Voice Activity Detection in Small Vocabulary Speech Recognition
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F07%3A03137501" target="_blank" >RIV/68407700:21230/07:03137501 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
angličtina
Original language name
Voice Activity Detection in Small Vocabulary Speech Recognition
Original language description
Experiments on using voice activity detection (VAD) as a part of the frame dropping method for suppressing the influence of background noise in speech recognition are presented in this work. A speaker independent phoneme-based Czech digit sequence recogniser working in real environment was used for this purpose. A parametrization-based VAD is used here and the results are compared under different conditions - noisy environment, distribution level and auditory-based signal parametrization. The experiments show, that VAD-based frame dropping signal processing can bring the improvement to the recognition in terms of decreasing the insertion error and increasing the speech model preciseness, reaching for up to 20% word error rate enhancement. But the needfor the universal setting of the detection algorithm for general environmental conditions brings the detection inaccuracy, which takes effect in the recognition results.
Czech name
Detekce řečové aktivity v rozpoznávači řeči s malým slovníkem
Czech description
Tato práce prezentuje experimenty s detekcí řečové aktivity v rámci potlačování vlivu šumu pozadí řečových nahrávek při rozpoznávání řeči metodou zahazování neřečových segmentů. K tomu účelu byl použit fonémový rozpoznávač sekvence českých číslovek pracující v reálných podmínkách. Metoda používá detektor vycházející z parametrizované podoby signálu. Výsledky jsou srovnávány pro různé podmínky - rozdílné šumové pozadí, rozdílná parametrizace signálu. Výsledky, dosahující až 20% snížení chybovosti rozpoznávače, ukazují výhodnost použití detektoru řeči pro snížení chyby typu inzerce a zvýšení přesnosti modelování fonémů. Nevýhodou použití detektoru je nesnadná optimalizace parametrů pro kvalitní detekci za obecných šumových podmínek.
Classification
Type
D - Article in proceedings
CEP classification
JA - Electronics and optoelectronics
OECD FORD branch
—
Result continuities
Project
Result was created during the realization of more than one project. More information in the Projects tab.
Continuities
Z - Vyzkumny zamer (s odkazem do CEZ)
Others
Publication year
2007
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Article name in the collection
Speech Processing
ISBN
978-80-86269-00-9
ISSN
—
e-ISSN
—
Number of pages
6
Pages from-to
43-48
Publisher name
Institute of Photonics and Electronics AS CR
Place of publication
Prague
Event location
Prague
Event date
Sep 19, 2007
Type of event by nationality
EUR - Evropská akce
UT code for WoS article
—