Modification of the Speech Feature Extraction Module for the Improvement of the System for Automatic lectures transcription
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F12%3A%230001998" target="_blank" >RIV/46747885:24220/12:#0001998 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Modification of the Speech Feature Extraction Module for the Improvement of the System for Automatic lectures transcription
Popis výsledku v původním jazyce
This contribution is about experiments with different speech feature extraction methods and strategies where the goal has been to improve the result and the resulting recognition rate of the speech recognizer of an automatic audio speech signal transcription system. The extraction of speech features is based on MFCC (Mel Frequency Cepstral Coefficients) and PLP (Perceptual Linear Prediction), which are normally used in different transcription systems around the world. The speech recognizer with different speech features has been tested on our speech database where audio (or video) recordings from archives of university lectures are stored. The result from our experiments is that we get higher recognition rate if PLP based audio speech features are used.
Název v anglickém jazyce
Modification of the Speech Feature Extraction Module for the Improvement of the System for Automatic lectures transcription
Popis výsledku anglicky
This contribution is about experiments with different speech feature extraction methods and strategies where the goal has been to improve the result and the resulting recognition rate of the speech recognizer of an automatic audio speech signal transcription system. The extraction of speech features is based on MFCC (Mel Frequency Cepstral Coefficients) and PLP (Perceptual Linear Prediction), which are normally used in different transcription systems around the world. The speech recognizer with different speech features has been tested on our speech database where audio (or video) recordings from archives of university lectures are stored. The result from our experiments is that we get higher recognition rate if PLP based audio speech features are used.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/TA01011142" target="_blank" >TA01011142: Automatická transkripce a indexace přednášek</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2012
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proc. of 54th International Symposium ELMAR-201
ISBN
978-1-4673-1243-1
ISSN
1334-2630
e-ISSN
—
Počet stran výsledku
4
Strana od-do
223-226
Název nakladatele
—
Místo vydání
Zadar, Chorvatsko
Místo konání akce
Zadar, Chorvatsko
Datum konání akce
1. 1. 2012
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—