AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F21%3APU142899" target="_blank" >RIV/00216305:26230/21:PU142899 - isvavai.cz</a>
Výsledek na webu
<a href="https://pero.fit.vutbr.cz/publications" target="_blank" >https://pero.fit.vutbr.cz/publications</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-030-86337-1_31" target="_blank" >10.1007/978-3-030-86337-1_31</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions
Popis výsledku v původním jazyce
This paper addresses text recognition for domains with limited manual annotations by a simple self-training strategy. Our approach should reduce human annotation effort when target domain data is plentiful, such as when transcribing a collection of single person's correspondence or a large manuscript. We propose to train a seed system on large scale data from related domains mixed with available annotated data from the target domain. The seed system transcribes the unannotated data from the target domain which is then used to train a better system. We study several confidence measures and eventually decide to use the posterior probability of a transcription for data selection. Additionally, we propose to augment the data using an aggressive masking scheme. By self-training, we achieve up to 55 % reduction in character error rate for handwritten data and up to 38 % on printed data. The masking augmentation itself reduces the error rate by about 10 % and its effect is better pronounced in case of difficult handwritten data.
Název v anglickém jazyce
AT-ST: Self-Training Adaptation Strategy for OCR in Domains with Limited Transcriptions
Popis výsledku anglicky
This paper addresses text recognition for domains with limited manual annotations by a simple self-training strategy. Our approach should reduce human annotation effort when target domain data is plentiful, such as when transcribing a collection of single person's correspondence or a large manuscript. We propose to train a seed system on large scale data from related domains mixed with available annotated data from the target domain. The seed system transcribes the unannotated data from the target domain which is then used to train a better system. We study several confidence measures and eventually decide to use the posterior probability of a transcription for data selection. Additionally, we propose to augment the data using an aggressive masking scheme. By self-training, we achieve up to 55 % reduction in character error rate for handwritten data and up to 38 % on printed data. The masking augmentation itself reduces the error rate by about 10 % and its effect is better pronounced in case of difficult handwritten data.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021
ISBN
978-3-030-86336-4
ISSN
—
e-ISSN
—
Počet stran výsledku
14
Strana od-do
463-477
Název nakladatele
Springer Nature Switzerland AG
Místo vydání
Lausanne
Místo konání akce
Lausanne, Switzerland
Datum konání akce
5. 9. 2021
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000711880100031