Automatic document quality assessment software module

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F19%3APR32697" target="_blank" >RIV/00216305:26230/19:PR32697 - isvavai.cz</a>
Výsledek na webu
<a href="https://github.com/DCGM/pero-quality" target="_blank" >https://github.com/DCGM/pero-quality</a>
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
angličtina
Název v původním jazyce
Automatic document quality assessment software module
Popis výsledku v původním jazyce
This tool provides automatic quality assessment of digitalized documents. The estimated quality scores closely correspond to readability by humans. The tool provides quality score heatmaps and an overall quality score for a whole document page. The module computes local perceptual quality scores based on confidence scores from Optical Character Recognition (OCR) or directly by a fast convolutional neural network. This module is build on top of OCR developed in project PERO (pero-ocr). The text recognition works in multiple stages. Firstly, locations and heights of text lines are determined using a fully convolutional neural network (modified U-NET). The individual text lines are processed by covolutional-recurrent networks trained using CTC loss. These networks provide confidences of recognized characters which are locally mapped to perceptual scores. The mapping to perceptual scores was calibrated on a large dataset of readability ratings by human readers.
Název v anglickém jazyce
Automatic document quality assessment software module
Popis výsledku anglicky
This tool provides automatic quality assessment of digitalized documents. The estimated quality scores closely correspond to readability by humans. The tool provides quality score heatmaps and an overall quality score for a whole document page. The module computes local perceptual quality scores based on confidence scores from Optical Character Recognition (OCR) or directly by a fast convolutional neural network. This module is build on top of OCR developed in project PERO (pero-ocr). The text recognition works in multiple stages. Firstly, locations and heights of text lines are determined using a fully convolutional neural network (modified U-NET). The individual text lines are processed by covolutional-recurrent networks trained using CTC loss. These networks provide confidences of recognized characters which are locally mapped to perceptual scores. The mapping to perceptual scores was calibrated on a large dataset of readability ratings by human readers.

Klasifikace

Druh
R - Software
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

Projekt
<a href="/cs/project/DG18P02OVV055" target="_blank" >DG18P02OVV055: Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

Rok uplatnění
2019
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Interní identifikační kód produktu
PERO-QUALITY
Technické parametry
Využití na základě volné a bezplatné open-source licence.
Ekonomické parametry
Jedná se o modul pro integraci do digitalizačních linek a digitalizačního software. Komerční uplatnění je možné v rámci poskytování doplňkových služeb a konzultací.
IČO vlastníka výsledku
—
Název vlastníka
Fakulta informačních technologií

Podobné výsledky(10)

Hybrid Training Data for Historical Text OCR Brno Mobile OCR Dataset Building an efficient OCR system for historical documents with little training data

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Automatic document quality assessment software module

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)