Od perceptronu k percepci: psychoakusticky motivovaná rekonstrukce audio signálu s využitím prvků hlubokého učení
Cíle projektu
Současné metody pro rekonstrukci degradovaných audio signálů jsou poměrně účinné, nicméně stále trpí sluchově nežádoucími nepříjemnými artefakty. Tyto artefakty pocházejí přímo z procesu rekonstrukce. Využít psychoakustiku ke zmírnění těchto rušivých jevů se v minulosti pokusilo jen několik málo přístupů. Ukazuje se bohužel, že začlenění sluchově percepčních modelů do dnešních metod je silně omezeno; jejich využití brání především jejich složitost, nediferencovatelnost a nekonvexnost. Nedávné výsledky z oblasti hlubokého učení ukazují, že lze trénovat funkcionály, které dokáží rozlišovat mezi věrohodným a nevěrohodným zvukem. Tyto diskriminátory jsou ve formě neuronových sítí, nejsou tedy lineární ani konvexní, ale jsou diferencovatelné. Tento projekt si klade za cíl použití těchto diskriminátorů jakožto univerzálních regularizátorů v algoritmech inspirovaných v oblasti konvexní optimalizace. Navržený přístup bude vést nejen k novému obecnému rekonstrukčnímu frameworku, ale také k výraznému zlepšení poslechové kvality v širokém rozsahu inverzních problémů zahrnujících audio signály.
Klíčová slova
signal processingaudiosignal reconstructionregularizationdeep learningneural networkdiscriminatoriterative algorithmsauditory modelingpsychoacoustics
Veřejná podpora
Poskytovatel
Grantová agentura České republiky
Program
Standardní projekty
Veřejná soutěž
SGA0202300001
Hlavní účastníci
Vysoké učení technické v Brně / Fakulta elektrotechniky a komunikačních technologií
Druh soutěže
VS - Veřejná soutěž
Číslo smlouvy
23-07294S
Alternativní jazyk
Název projektu anglicky
From perceptron to perception: psychoacoustically motivated audio reconstruction using learned components
Anotace anglicky
State-of-the-art methods for the reconstruction of degraded audio signals are successful at their performance. However, they still suffer from perceptually unpleasant or annoying artifacts coming from the reconstruction process. Only a few recent approaches involved psychoacoustics to alleviate this disturbing phenomena. Unfortunately, it turns out that the incorporation of auditory models into current methods it strongly limited. Their use therein is prevented by their complexity, non-differentiability and non-convexity. Recent results from the field of deep learning show that functionals can be trained to distinguish between faithful and implausible audio. Such discriminators come in the form of a neural network, thus being non-linear and non-convex, but, most importantly, differentiable. The project aims at using these discriminators as universal regularizers in algorithms inspired in convex optimization. This will not only lead to a general reconstruction framework, but also to significant improvements of perceptual quality in a wide range of audio inverse problems.
Vědní obory
Kategorie VaV
ZV - Základní výzkum
OECD FORD - hlavní obor
20203 - Telecommunications
OECD FORD - vedlejší obor
20201 - Electrical and electronic engineering
OECD FORD - další vedlejší obor
10102 - Applied mathematics
CEP - odpovídající obory
(dle převodníku)BD - Teorie informace
JA - Elektronika a optoelektronika, elektrotechnika
JB - Senzory, čidla, měření a regulace
JW - Navigace, spojení, detekce a protiopatření
Termíny řešení
Zahájení řešení
1. 1. 2023
Ukončení řešení
31. 12. 2025
Poslední stav řešení
K - Končící víceletý projekt
Poslední uvolnění podpory
29. 2. 2024
Dodání dat do CEP
Důvěrnost údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Systémové označení dodávky dat
CEP25-GA0-GA-R
Datum dodání záznamu
21. 2. 2025
Finance
Celkové uznané náklady
6 304 tis. Kč
Výše podpory ze státního rozpočtu
5 513 tis. Kč
Ostatní veřejné zdroje financování
791 tis. Kč
Neveřejné tuz. a zahr. zdroje finan.
0 tis. Kč
Základní informace
Uznané náklady
6 304 tis. Kč
Statní podpora
5 513 tis. Kč
87%
Poskytovatel
Grantová agentura České republiky
OECD FORD
Telecommunications
Doba řešení
01. 01. 2023 - 31. 12. 2025