Rekonstrukce řečového signálu z melovských frekvenčních kepstrálních koeficientů
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F00%3A00061780" target="_blank" >RIV/49777513:23520/00:00061780 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Rekonstrukce řečového signálu z melovských frekvenčních kepstrálních koeficientů
Popis výsledku v původním jazyce
Tato disertační práce se zabývá vývojem systému rekonstrukce řečového signálu z MFCC koeficientů. MFCC (Mel-Frequency Cepstral Coefficient) parametrizace byla vyvinuta hlavně pro úlohy rozpoznávání řeči a je široce používána jako základní parametrizace vsystémech rozpoznávání řeči. Hlavním cílem této práce bylo najít řešení rekonstrukce řeči z MFCC koeficientů a realizovat systém rekonstrukce. Pozornost je v práci věnována dvěma vzájemně extrémním přístupům. Ty se liší především v metodě buzení, ale obě užívají stejný model produkce založený na MFCC, jehož návrh je také v práci detailně popsán. Závěrem zmiňme, že práce vyústila v komplexní řešení, které poskytuje prostředky pro dobře srozumitelnou rekonstrukci řečových signálů z uložených MFCC koeficientů. Zdůrazněme novou metodu pro rozhodování o znělosti/neznělosti z pouhého MFCC vektoru a nový přístup pro foneticky založené shlukování prostoru příznakových vektorů. Ty se mohou stát inspirací dalšího výzkumu v souvisejících oblastec
Název v anglickém jazyce
Speech reconstruction from the mel frequency cepstral coefficients
Popis výsledku anglicky
This thesis deals with the task of development of the MFCC-based speech reconstruction system. The MFCC (Mel-Frequency Cepstral Coefficient) parameterization has been refined for the tasks of speech recognition and is widely used as a basic speech parameterization in the speech recognition systems. The main goal of the thesis was to find the solution of the speech reconstruction from the MFCCs and realize the reconstructor. Attention was aimed at two mutually extreme approaches. They differ mainly in the method of excitation but both of them use the same MFCC-based production model, the design of which is also described in details in this report. Finally, let's mention that this work resulted in a complex solution that offers the means for the well intelligible speech signal reconstruction from the stored MFCCs. Let's highlight the new method for making voiced/unvoiced decision from MFCC vector only and a new approach for phonetically based feature space clustering that were introduced
Klasifikace
Druh
B - Odborná kniha
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/VS97159" target="_blank" >VS97159: Centrum pro výzkum kybernetických systémů</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2000
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
ISBN
—
Počet stran knihy
1
Název nakladatele
Západočeská univerzita
Místo vydání
Plzeň
Kód UT WoS knihy
—