Tracking by 3D Model Estimation of Unknown Objects in Videos
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F23%3A00371803" target="_blank" >RIV/68407700:21230/23:00371803 - isvavai.cz</a>
Výsledek na webu
<a href="https://doi.org/10.1109/ICCV51070.2023.01295" target="_blank" >https://doi.org/10.1109/ICCV51070.2023.01295</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/ICCV51070.2023.01295" target="_blank" >10.1109/ICCV51070.2023.01295</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Tracking by 3D Model Estimation of Unknown Objects in Videos
Popis výsledku v původním jazyce
Most model-free visual object tracking methods formulate the tracking task as object location estimation given by a 2D segmentation or a bounding box in each video frame. We argue that this representation is limited and instead propose to guide and improve 2D tracking with an explicit object representation, namely the textured 3D shape and 6DoF pose in each video frame. Our representation tackles a complex long-term dense correspondence problem between all 3D points on the object for all video frames, including frames where some points are invisible. To achieve that, the estimation is driven by re-rendering the input video frames as well as possible through differentiable rendering, which has not been used for tracking before. The proposed optimization minimizes a novel loss function to estimate the best 3D shape, texture, and 6DoF pose. We improve the state-of-the-art in 2D segmentation tracking on three different datasets with mostly rigid objects.
Název v anglickém jazyce
Tracking by 3D Model Estimation of Unknown Objects in Videos
Popis výsledku anglicky
Most model-free visual object tracking methods formulate the tracking task as object location estimation given by a 2D segmentation or a bounding box in each video frame. We argue that this representation is limited and instead propose to guide and improve 2D tracking with an explicit object representation, namely the textured 3D shape and 6DoF pose in each video frame. Our representation tackles a complex long-term dense correspondence problem between all 3D points on the object for all video frames, including frames where some points are invisible. To achieve that, the estimation is driven by re-rendering the input video frames as well as possible through differentiable rendering, which has not been used for tracking before. The proposed optimization minimizes a novel loss function to estimate the best 3D shape, texture, and 6DoF pose. We improve the state-of-the-art in 2D segmentation tracking on three different datasets with mostly rigid objects.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/EF16_019%2F0000765" target="_blank" >EF16_019/0000765: Výzkumné centrum informatiky</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
ICCV2023: Proceedings of the International Conference on Computer Vision
ISBN
979-8-3503-0719-1
ISSN
1550-5499
e-ISSN
2380-7504
Počet stran výsledku
11
Strana od-do
14040-14050
Název nakladatele
IEEE
Místo vydání
Piscataway
Místo konání akce
Paris
Datum konání akce
2. 10. 2023
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
001169499006047