Ballroom Dance Recognition from Audio Recordings
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F21%3A00345502" target="_blank" >RIV/68407700:21230/21:00345502 - isvavai.cz</a>
Výsledek na webu
<a href="https://doi.org/10.1109/ICPR48806.2021.9412255" target="_blank" >https://doi.org/10.1109/ICPR48806.2021.9412255</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/ICPR48806.2021.9412255" target="_blank" >10.1109/ICPR48806.2021.9412255</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Ballroom Dance Recognition from Audio Recordings
Popis výsledku v původním jazyce
We propose a CNN-based approach to classify ten genres of ballroom dances given audio recordings, five latin and five standard, namely Cha Cha Cha, Jive, Paso Doble, Rumba, Samba, Quickstep, Slow Foxtrot, SlowWaltz, Tango and Viennese Waltz. We utilize a spectrogram of an audio signal and we treat it as an image that is an input of the CNN. The classification is performed independently by 5-seconds spectrogram segments in sliding window fashion and the results are then aggregated. The method was tested on following datasets: Publicly available Extended Ballroom dataset collected by Marchand and Peeters, 2016 and two YouTube datasets collected by us, one in studio quality and the other, more challenging, recorded on mobile phones. The method achieved accuracy 93.9%, 96.7% and 89.8% respectively. The method runs in real-time. We implemented a web application to demonstrate the proposed method.
Název v anglickém jazyce
Ballroom Dance Recognition from Audio Recordings
Popis výsledku anglicky
We propose a CNN-based approach to classify ten genres of ballroom dances given audio recordings, five latin and five standard, namely Cha Cha Cha, Jive, Paso Doble, Rumba, Samba, Quickstep, Slow Foxtrot, SlowWaltz, Tango and Viennese Waltz. We utilize a spectrogram of an audio signal and we treat it as an image that is an input of the CNN. The classification is performed independently by 5-seconds spectrogram segments in sliding window fashion and the results are then aggregated. The method was tested on following datasets: Publicly available Extended Ballroom dataset collected by Marchand and Peeters, 2016 and two YouTube datasets collected by us, one in studio quality and the other, more challenging, recorded on mobile phones. The method achieved accuracy 93.9%, 96.7% and 89.8% respectively. The method runs in real-time. We implemented a web application to demonstrate the proposed method.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/EF16_019%2F0000765" target="_blank" >EF16_019/0000765: Výzkumné centrum informatiky</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
2020 25th International Conference on Pattern Recognition (ICPR)
ISBN
978-1-7281-8808-9
ISSN
1051-4651
e-ISSN
1051-4651
Počet stran výsledku
8
Strana od-do
2142-2149
Název nakladatele
IEEE Computer Society
Místo vydání
Los Alamitos
Místo konání akce
Milan
Datum konání akce
10. 1. 2021
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000678409202033