DeepVoCoder: A CNN Model for Compression and Coding of Narrow Band Speech
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F61989100%3A27240%2F19%3A10242237" target="_blank" >RIV/61989100:27240/19:10242237 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/61989100:27740/19:10242237
Výsledek na webu
<a href="https://ieeexplore.ieee.org/document/8730308" target="_blank" >https://ieeexplore.ieee.org/document/8730308</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/ACCESS.2019.2920663" target="_blank" >10.1109/ACCESS.2019.2920663</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
DeepVoCoder: A CNN Model for Compression and Coding of Narrow Band Speech
Popis výsledku v původním jazyce
This paper proposes a convolutional neural network (CNN)-based encoder model to compress and code speech signal directly from raw input speech. Although the model can synthesize wideband speech by implicit bandwidth extension, narrowband is preferred for IP telephony and telecommunications purposes. The model takes time domain speech samples as inputs and encodes them using a cascade of convolutional filters in multiple layers, where pooling is applied after some layers to downsample the encoded speech by half. The final bottleneck layer of the CNN encoder provides an abstract and compact representation of the speech signal. In this paper, it is demonstrated that this compact representation is sufficient to reconstruct the original speech signal in high quality using the CNN decoder. This paper also discusses the theoretical background of why and how CNN may be used for end-to-end speech compression and coding.
Název v anglickém jazyce
DeepVoCoder: A CNN Model for Compression and Coding of Narrow Band Speech
Popis výsledku anglicky
This paper proposes a convolutional neural network (CNN)-based encoder model to compress and code speech signal directly from raw input speech. Although the model can synthesize wideband speech by implicit bandwidth extension, narrowband is preferred for IP telephony and telecommunications purposes. The model takes time domain speech samples as inputs and encodes them using a cascade of convolutional filters in multiple layers, where pooling is applied after some layers to downsample the encoded speech by half. The final bottleneck layer of the CNN encoder provides an abstract and compact representation of the speech signal. In this paper, it is demonstrated that this compact representation is sufficient to reconstruct the original speech signal in high quality using the CNN decoder. This paper also discusses the theoretical background of why and how CNN may be used for end-to-end speech compression and coding.
Klasifikace
Druh
J<sub>imp</sub> - Článek v periodiku v databázi Web of Science
CEP obor
—
OECD FORD obor
20203 - Telecommunications
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2015070" target="_blank" >LM2015070: IT4Innovations národní superpočítačové centrum</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2019
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
IEEE Access
ISSN
2169-3536
e-ISSN
—
Svazek periodika
7
Číslo periodika v rámci svazku
Neuveden
Stát vydavatele periodika
US - Spojené státy americké
Počet stran výsledku
9
Strana od-do
75081-75089
Kód UT WoS článku
000473188800001
EID výsledku v databázi Scopus
2-s2.0-85068349969