TubeDETR: Spatio-Temporal Video Grounding with Transformers
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21730%2F22%3A00365338" target="_blank" >RIV/68407700:21730/22:00365338 - isvavai.cz</a>
Výsledek na webu
<a href="https://doi.org/10.1109/CVPR52688.2022.01595" target="_blank" >https://doi.org/10.1109/CVPR52688.2022.01595</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/CVPR52688.2022.01595" target="_blank" >10.1109/CVPR52688.2022.01595</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
TubeDETR: Spatio-Temporal Video Grounding with Transformers
Popis výsledku v původním jazyce
We consider the problem of localizing a spatio-temporal tube in a video corresponding to a given text query. This is a challenging task that requires the joint and efficient modeling of temporal, spatial and multi-modal interactions. To address this task, we propose TubeDETR, a transformer-based architecture inspired by the recent success of such models for text-conditioned object detection. Our model notably includes: (i) an efficient video and text encoder that models spatial multi-modal interactions over sparsely sampled frames and (ii) a space-time decoder that jointly performs spatio-temporal localization. We demonstrate the advantage of our proposed components through an extensive ablation study. We also evaluate our full approach on the spatio-temporal video grounding task and demonstrate improvements over the state of the art on the challenging VidSTG and HC-STVG benchmarks.
Název v anglickém jazyce
TubeDETR: Spatio-Temporal Video Grounding with Transformers
Popis výsledku anglicky
We consider the problem of localizing a spatio-temporal tube in a video corresponding to a given text query. This is a challenging task that requires the joint and efficient modeling of temporal, spatial and multi-modal interactions. To address this task, we propose TubeDETR, a transformer-based architecture inspired by the recent success of such models for text-conditioned object detection. Our model notably includes: (i) an efficient video and text encoder that models spatial multi-modal interactions over sparsely sampled frames and (ii) a space-time decoder that jointly performs spatio-temporal localization. We demonstrate the advantage of our proposed components through an extensive ablation study. We also evaluate our full approach on the spatio-temporal video grounding task and demonstrate improvements over the state of the art on the challenging VidSTG and HC-STVG benchmarks.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/EF15_003%2F0000468" target="_blank" >EF15_003/0000468: Inteligentní strojové vnímání</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2022
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceeding 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
ISBN
978-1-6654-6946-3
ISSN
1063-6919
e-ISSN
2575-7075
Počet stran výsledku
12
Strana od-do
16421-16432
Název nakladatele
IEEE
Místo vydání
Piscataway
Místo konání akce
New Orleans, Louisiana
Datum konání akce
19. 6. 2022
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000870783002023