Interactive multimodal video search: an extended post-evaluation for the VBS 2022 competition
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F24%3A10488719" target="_blank" >RIV/00216208:11320/24:10488719 - isvavai.cz</a>
Výsledek na webu
<a href="https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=C0PSFYKptQ" target="_blank" >https://verso.is.cuni.cz/pub/verso.fpl?fname=obd_publikace_handle&handle=C0PSFYKptQ</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/s13735-024-00325-9" target="_blank" >10.1007/s13735-024-00325-9</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Interactive multimodal video search: an extended post-evaluation for the VBS 2022 competition
Popis výsledku v původním jazyce
CLIP-based text-to-image retrieval has proven to be very effective at the interactive video retrieval competition Video Browser Showdown 2022, where all three top-scoring teams had implemented a variant of a CLIP model in their system. Since the performance of these three systems was quite close, this post-evaluation was designed to get better insights on the differences of the systems and compare the CLIP-based text-query retrieval engines by introducing slight modifications to the original competition settings. An extended analysis of the overall results and the retrieval performance of all systems' functionalities shows that a strong text retrieval model certainly helps, but has to be coupled with extensive browsing capabilities and other query-modalities to consistently solve known-item-search tasks in a large-scale video database.
Název v anglickém jazyce
Interactive multimodal video search: an extended post-evaluation for the VBS 2022 competition
Popis výsledku anglicky
CLIP-based text-to-image retrieval has proven to be very effective at the interactive video retrieval competition Video Browser Showdown 2022, where all three top-scoring teams had implemented a variant of a CLIP model in their system. Since the performance of these three systems was quite close, this post-evaluation was designed to get better insights on the differences of the systems and compare the CLIP-based text-query retrieval engines by introducing slight modifications to the original competition settings. An extended analysis of the overall results and the retrieval performance of all systems' functionalities shows that a strong text retrieval model certainly helps, but has to be coupled with extensive browsing capabilities and other query-modalities to consistently solve known-item-search tasks in a large-scale video database.
Klasifikace
Druh
J<sub>imp</sub> - Článek v periodiku v databázi Web of Science
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/GA22-21696S" target="_blank" >GA22-21696S: Hluboké vizuální reprezentace nestrukturovaných dat</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
International Journal of Multimedia Information Retrieval
ISSN
2192-6611
e-ISSN
2192-662X
Svazek periodika
13
Číslo periodika v rámci svazku
2
Stát vydavatele periodika
GB - Spojené království Velké Británie a Severního Irska
Počet stran výsledku
13
Strana od-do
15
Kód UT WoS článku
001191286600001
EID výsledku v databázi Scopus
2-s2.0-85189147310