TS-Net: OCR Trained to Switch Between Text Transcription Styles
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F21%3APU139693" target="_blank" >RIV/00216305:26230/21:PU139693 - isvavai.cz</a>
Výsledek na webu
<a href="https://pero.fit.vutbr.cz/publications" target="_blank" >https://pero.fit.vutbr.cz/publications</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-030-86337-1_32" target="_blank" >10.1007/978-3-030-86337-1_32</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
TS-Net: OCR Trained to Switch Between Text Transcription Styles
Popis výsledku v původním jazyce
Multiple transcribers produce transcriptions in inconsistent transcription styles. This presents a problem for training consistent neural network systems for text recognition. We propose Transcription Style Block (TSB) which can learn to switch between multiple transcription styles without any explicit knowledge about the transcription rules. TSB is an adaptive instance normalization conditioned by transcription style identifiers e.g. document numbers or transcriber names and it can be added near the end of any standard text recognition network. We show that TSB is robust towards the number and complexity of transcription styles and does not degrade the text recognition performance. With time and data efficient adaptation to a new transcription style, we achieved up to 77% relative test character error reduction in comparison to a network without the TSB.
Název v anglickém jazyce
TS-Net: OCR Trained to Switch Between Text Transcription Styles
Popis výsledku anglicky
Multiple transcribers produce transcriptions in inconsistent transcription styles. This presents a problem for training consistent neural network systems for text recognition. We propose Transcription Style Block (TSB) which can learn to switch between multiple transcription styles without any explicit knowledge about the transcription rules. TSB is an adaptive instance normalization conditioned by transcription style identifiers e.g. document numbers or transcriber names and it can be added near the end of any standard text recognition network. We show that TSB is robust towards the number and complexity of transcription styles and does not degrade the text recognition performance. With time and data efficient adaptation to a new transcription style, we achieved up to 77% relative test character error reduction in comparison to a network without the TSB.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/DG18P02OVV055" target="_blank" >DG18P02OVV055: Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Lladós J., Lopresti D., Uchida S. (eds) Document Analysis and Recognition - ICDAR 2021
ISBN
978-3-030-86336-4
ISSN
0302-9743
e-ISSN
—
Počet stran výsledku
16
Strana od-do
478-493
Název nakladatele
Springer Nature Switzerland AG
Místo vydání
Lausanne
Místo konání akce
Lausanne, Switzerland
Datum konání akce
5. 9. 2021
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000711880100032