Adaptive OCR for older printed documents
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F20%3APR34240" target="_blank" >RIV/00216305:26230/20:PR34240 - isvavai.cz</a>
Result on the web
<a href="https://www.fit.vut.cz/research/product/666/" target="_blank" >https://www.fit.vut.cz/research/product/666/</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Software pro adaptabilní rozpoznávání textu starých tisků
Original language description
Tento Python balíček zapouzdřuje celý řetězec OCR včetně, analýzy rozložení stránky, detekci řádků, rozpoznání textu a dekódování textu s využitím jazykového modelu. Software je zaměřený na zpracování nekvalitních dokumentů (například digitalizovaných z mikrofilmů). Balíček poskytuje nástroj spustitelný z příkazové řádky i třídu, kterou je možné integrovat do vlastního software.
Czech name
Software pro adaptabilní rozpoznávání textu starých tisků
Czech description
Tento Python balíček zapouzdřuje celý řetězec OCR včetně, analýzy rozložení stránky, detekci řádků, rozpoznání textu a dekódování textu s využitím jazykového modelu. Software je zaměřený na zpracování nekvalitních dokumentů (například digitalizovaných z mikrofilmů). Balíček poskytuje nástroj spustitelný z příkazové řádky i třídu, kterou je možné integrovat do vlastního software.
Classification
Type
R - Software
CEP classification
—
OECD FORD branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Result continuities
Project
<a href="/en/project/DG18P02OVV055" target="_blank" >DG18P02OVV055: Advanced content extraction and recognition for printed and handwritten documents for better accessibility and usability</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2020
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
PERO-OCR-PRINT
Technical parameters
Využití na základě volné a bezplatné open-source licence
Economical parameters
Jedná se jádro OCR software, který umožňuje zpracovat digitalizované obrázky a extrahovat obsažený text. Modul je možné integrovat do digitalizačních linek nebo dalšího software. Komerční uplatnění je možné v rámci poskytování doplňkových služeb, úprav sofwarare na míru a konzultací.
Owner IČO
—
Owner name
Fakulta informačních technologií