Monocular Depth Estimation Primed by Salient Point Detection and Normalized Hessian Loss
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F21%3A00364661" target="_blank" >RIV/68407700:21230/21:00364661 - isvavai.cz</a>
Výsledek na webu
<a href="https://doi.org/10.1109/3DV53792.2021.00033" target="_blank" >https://doi.org/10.1109/3DV53792.2021.00033</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/3DV53792.2021.00033" target="_blank" >10.1109/3DV53792.2021.00033</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Monocular Depth Estimation Primed by Salient Point Detection and Normalized Hessian Loss
Popis výsledku v původním jazyce
Deep neural networks have recently thrived on single image depth estimation. That being said, current developments on this topic highlight an apparent compromise between accuracy and network size. This work proposes an accurate and lightweight framework for monocular depth estimation based on a self-attention mechanism stemming from salient point detection. Specifically, we utilize a sparse set of keypoints to train a FuSaNet model that consists of two major components: Fusion-Net and Saliency-Net. In addition, we introduce a normalized Hessian loss term invariant to scaling and shear along the depth direction, which is shown to substantially improve the accuracy. The proposed method achieves state-of-the-art results on NYU-Depth-v2 and KITTI while using 3.1-38.4 times smaller model in terms of the number of parameters than baseline approaches. Experiments on the SUN-RGBD further demonstrate the generalizability of the proposed method.
Název v anglickém jazyce
Monocular Depth Estimation Primed by Salient Point Detection and Normalized Hessian Loss
Popis výsledku anglicky
Deep neural networks have recently thrived on single image depth estimation. That being said, current developments on this topic highlight an apparent compromise between accuracy and network size. This work proposes an accurate and lightweight framework for monocular depth estimation based on a self-attention mechanism stemming from salient point detection. Specifically, we utilize a sparse set of keypoints to train a FuSaNet model that consists of two major components: Fusion-Net and Saliency-Net. In addition, we introduce a normalized Hessian loss term invariant to scaling and shear along the depth direction, which is shown to substantially improve the accuracy. The proposed method achieves state-of-the-art results on NYU-Depth-v2 and KITTI while using 3.1-38.4 times smaller model in terms of the number of parameters than baseline approaches. Experiments on the SUN-RGBD further demonstrate the generalizability of the proposed method.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/EF16_019%2F0000765" target="_blank" >EF16_019/0000765: Výzkumné centrum informatiky</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
3DV 2021: Proceedings of the International Conference on 3D Vision
ISBN
978-1-6654-2688-6
ISSN
2378-3826
e-ISSN
2475-7888
Počet stran výsledku
11
Strana od-do
228-238
Název nakladatele
IEEE Computer Soc.
Místo vydání
Los Alamitos, CA
Místo konání akce
Virtual
Datum konání akce
1. 12. 2021
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000786496000023