Composed Image Retrieval for Remote Sensing
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F24%3A00379044" target="_blank" >RIV/68407700:21230/24:00379044 - isvavai.cz</a>
Výsledek na webu
<a href="https://doi.org/10.1109/IGARSS53475.2024.10642874" target="_blank" >https://doi.org/10.1109/IGARSS53475.2024.10642874</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/IGARSS53475.2024.10642874" target="_blank" >10.1109/IGARSS53475.2024.10642874</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Composed Image Retrieval for Remote Sensing
Popis výsledku v původním jazyce
This work introduces composed image retrieval to remote sensing. It allows to query a large image archive by image examples alternated by a textual description, enriching the descriptive power over unimodal queries, either visual or textual. Various attributes can be modified by the textual part, such as shape, color, or context. A novel method fusing image-to-image and text-to-image similarity is introduced. We demonstrate that a vision-language model possesses sufficient descriptive power and no further learning step or training data are necessary. We present a new evaluation benchmark focused on color, context, density, existence, quantity, and shape modifications. Our work not only sets the state-of-the-art for this task, but also serves as a foundational step in addressing a gap in the field of remote sensing image retrieval. Code at: https://github.com/billpsomas/rscir.
Název v anglickém jazyce
Composed Image Retrieval for Remote Sensing
Popis výsledku anglicky
This work introduces composed image retrieval to remote sensing. It allows to query a large image archive by image examples alternated by a textual description, enriching the descriptive power over unimodal queries, either visual or textual. Various attributes can be modified by the textual part, such as shape, color, or context. A novel method fusing image-to-image and text-to-image similarity is introduced. We demonstrate that a vision-language model possesses sufficient descriptive power and no further learning step or training data are necessary. We present a new evaluation benchmark focused on color, context, density, existence, quantity, and shape modifications. Our work not only sets the state-of-the-art for this task, but also serves as a foundational step in addressing a gap in the field of remote sensing image retrieval. Code at: https://github.com/billpsomas/rscir.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/GM21-28830M" target="_blank" >GM21-28830M: Učení Univerzální Vizuální Reprezentace s Omezenou Supervizí</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
IGARSS 2024 - 2024 IEEE International Geoscience and Remote Sensing Symposium Proceedings
ISBN
979-8-3503-6033-2
ISSN
2153-6996
e-ISSN
2153-7003
Počet stran výsledku
9
Strana od-do
8526-8534
Název nakladatele
IEEE
Místo vydání
Piscataway
Místo konání akce
Athens
Datum konání akce
7. 7. 2024
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
001415226903077