TG2: text-guided transformer GAN for restoring document readability and perceived quality
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F21%3APU142892" target="_blank" >RIV/00216305:26230/21:PU142892 - isvavai.cz</a>
Výsledek na webu
<a href="https://link.springer.com/article/10.1007/s10032-021-00387-z" target="_blank" >https://link.springer.com/article/10.1007/s10032-021-00387-z</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/s10032-021-00387-z" target="_blank" >10.1007/s10032-021-00387-z</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
TG2: text-guided transformer GAN for restoring document readability and perceived quality
Popis výsledku v původním jazyce
Most image enhancement methods focused on restoration of digitized textual documents are limited to cases where the text information is still preserved in the input image, which may often not be the case. In this work, we propose a novel generative document restoration method which allows conditioning the restoration on a guiding signal in form of target text transcription and which does not need paired high- and low-quality images for training. We introduce a neural network architecture with an implicit text-to-image alignment module. We demonstrate good results on inpainting, debinarization and deblurring tasks, and we show that the trained models can be used to manually alter text in document images.A user study shows that that human observers confuse the outputs of the proposed enhancement method with reference high-quality images in as many as 30% of cases.
Název v anglickém jazyce
TG2: text-guided transformer GAN for restoring document readability and perceived quality
Popis výsledku anglicky
Most image enhancement methods focused on restoration of digitized textual documents are limited to cases where the text information is still preserved in the input image, which may often not be the case. In this work, we propose a novel generative document restoration method which allows conditioning the restoration on a guiding signal in form of target text transcription and which does not need paired high- and low-quality images for training. We introduce a neural network architecture with an implicit text-to-image alignment module. We demonstrate good results on inpainting, debinarization and deblurring tasks, and we show that the trained models can be used to manually alter text in document images.A user study shows that that human observers confuse the outputs of the proposed enhancement method with reference high-quality images in as many as 30% of cases.
Klasifikace
Druh
J<sub>imp</sub> - Článek v periodiku v databázi Web of Science
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
International Journal on Document Analysis and Recognition
ISSN
1433-2833
e-ISSN
1433-2825
Svazek periodika
2021
Číslo periodika v rámci svazku
1
Stát vydavatele periodika
DE - Spolková republika Německo
Počet stran výsledku
14
Strana od-do
1-14
Kód UT WoS článku
000698372200001
EID výsledku v databázi Scopus
2-s2.0-85115335316