Od perceptronu k percepci: psychoakusticky motivovaná rekonstrukce audio signálu s využitím prvků hlubokého učení

Cíle projektu

Současné metody pro rekonstrukci degradovaných audio signálů jsou poměrně účinné, nicméně stále trpí sluchově nežádoucími nepříjemnými artefakty. Tyto artefakty pocházejí přímo z procesu rekonstrukce. Využít psychoakustiku ke zmírnění těchto rušivých jevů se v minulosti pokusilo jen několik málo přístupů. Ukazuje se bohužel, že začlenění sluchově percepčních modelů do dnešních metod je silně omezeno; jejich využití brání především jejich složitost, nediferencovatelnost a nekonvexnost. Nedávné výsledky z oblasti hlubokého učení ukazují, že lze trénovat funkcionály, které dokáží rozlišovat mezi věrohodným a nevěrohodným zvukem. Tyto diskriminátory jsou ve formě neuronových sítí, nejsou tedy lineární ani konvexní, ale jsou diferencovatelné. Tento projekt si klade za cíl použití těchto diskriminátorů jakožto univerzálních regularizátorů v algoritmech inspirovaných v oblasti konvexní optimalizace. Navržený přístup bude vést nejen k novému obecnému rekonstrukčnímu frameworku, ale také k výraznému zlepšení poslechové kvality v širokém rozsahu inverzních problémů zahrnujících audio signály.

Klíčová slova

signal processing audio signal reconstruction regularization deep learning neural network discriminator iterative algorithms auditory modeling psychoacoustics

Veřejná podpora

Poskytovatel
Grantová agentura České republiky
Program
Standardní projekty
Veřejná soutěž
SGA0202300001
Hlavní účastníci
Vysoké učení technické v Brně / Fakulta elektrotechniky a komunikačních technologií
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
23-07294S

Alternativní jazyk

Název projektu anglicky
From perceptron to perception: psychoacoustically motivated audio reconstruction using learned components
Anotace anglicky
State-of-the-art methods for the reconstruction of degraded audio signals are successful at their performance. However, they still suffer from perceptually unpleasant or annoying artifacts coming from the reconstruction process. Only a few recent approaches involved psychoacoustics to alleviate this disturbing phenomena. Unfortunately, it turns out that the incorporation of auditory models into current methods it strongly limited. Their use therein is prevented by their complexity, non-differentiability and non-convexity. Recent results from the field of deep learning show that functionals can be trained to distinguish between faithful and implausible audio. Such discriminators come in the form of a neural network, thus being non-linear and non-convex, but, most importantly, differentiable. The project aims at using these discriminators as universal regularizers in algorithms inspired in convex optimization. This will not only lead to a general reconstruction framework, but also to significant improvements of perceptual quality in a wide range of audio inverse problems.

Vědní obory

Kategorie VaV
ZV - Základní výzkum
OECD FORD - hlavní obor
20203 - Telecommunications
OECD FORD - vedlejší obor
20201 - Electrical and electronic engineering
OECD FORD - další vedlejší obor
10102 - Applied mathematics
CEP - odpovídající obory
(dle převodníku)
BD - Teorie informace
JA - Elektronika a optoelektronika, elektrotechnika
JB - Senzory, čidla, měření a regulace
JW - Navigace, spojení, detekce a protiopatření

Termíny řešení

Zahájení řešení
1. 1. 2023
Ukončení řešení
31. 12. 2025
Poslední stav řešení
K - Končící víceletý projekt
Poslední uvolnění podpory
29. 2. 2024

Dodání dat do CEP

Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP25-GA0-GA-R
Datum dodání záznamu
21. 2. 2025

Finance

Celkové uznané náklady
6 304 tis. Kč
Výše podpory ze státního rozpočtu
5 513 tis. Kč
Ostatní veřejné zdroje financování
791 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč

Základní informace

Uznané náklady

6 304 tis. Kč

Statní podpora

5 513 tis. Kč

87%

Poskytovatel

Grantová agentura České republiky

OECD FORD

Telecommunications

Doba řešení

01. 01. 2023 - 31. 12. 2025

Podobné projekty(10)

Nové metody doplňování chybějících vzorků v audio datech (7AMB13AT021) Optimalizace algoritmů digitálního zpracování audiosignálů (GA102/06/1233) Pokročilé metody slepé separace podprostorů (GA17-00902S)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Sdílet výsledky vyhledávání