Generation of Synthetic Images of Full-Text Documents
Popis výsledku
Identifikátory výsledku
Kód výsledku v IS VaVaI
Výsledek na webu
https://link.springer.com/chapter/10.1007%2F978-3-319-99579-3_8
DOI - Digital Object Identifier
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Generation of Synthetic Images of Full-Text Documents
Popis výsledku v původním jazyce
In this paper, we present an algorithm for generating images of full-text documents. Such images can be used to train and evaluate models of optical character recognition. The algorithm is modular, individual parts can be changed and tweaked to generate desired images. We describe a method for obtaining background images of paper from already digitalized documents.We use a Variational Autoencoder to train a generative model of these backgrounds enabling the generation of similar background images as the training ones on the fly. The module for printing the text uses large text corpora, font, and suitable positional and brightness noise to obtain believable results. We use Tesseract OCR to compare the real world and generated images and observe that the recognition rate is very similar indicating the proper appearance of the synthetic images. Furthermore, the mistakes made by the OCR system in both cases are alike. Finally, the system generates detailed, structured annotation of the synthesized image.
Název v anglickém jazyce
Generation of Synthetic Images of Full-Text Documents
Popis výsledku anglicky
In this paper, we present an algorithm for generating images of full-text documents. Such images can be used to train and evaluate models of optical character recognition. The algorithm is modular, individual parts can be changed and tweaked to generate desired images. We describe a method for obtaining background images of paper from already digitalized documents.We use a Variational Autoencoder to train a generative model of these backgrounds enabling the generation of similar background images as the training ones on the fly. The module for printing the text uses large text corpora, font, and suitable positional and brightness noise to obtain believable results. We use Tesseract OCR to compare the real world and generated images and observe that the recognition rate is very similar indicating the proper appearance of the synthetic images. Furthermore, the mistakes made by the OCR system in both cases are alike. Finally, the system generates detailed, structured annotation of the synthesized image.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
LO1506: Podpora udržitelnosti centra NTIS - Nové technologie pro informační společnost
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2018
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Speech and Computer 20th International Conference, SPECOM 2018 Leipzig, Germany, September 18–22, 2018, Proceedings
ISBN
978-3-319-99578-6
ISSN
0302-9743
e-ISSN
1611-3349
Počet stran výsledku
8
Strana od-do
68-75
Název nakladatele
Springer Nature Switzerland AG
Místo vydání
Cham
Místo konání akce
Leipzig, Germany
Datum konání akce
18. 9. 2018
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—
Základní informace
Druh výsledku
D - Stať ve sborníku
OECD FORD
Automation and control systems
Rok uplatnění
2018