Software pro adaptabilní rozpoznávání textu starých tisků
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F20%3APR34240" target="_blank" >RIV/00216305:26230/20:PR34240 - isvavai.cz</a>
Výsledek na webu
<a href="https://www.fit.vut.cz/research/product/666/" target="_blank" >https://www.fit.vut.cz/research/product/666/</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Software pro adaptabilní rozpoznávání textu starých tisků
Popis výsledku v původním jazyce
Tento Python balíček zapouzdřuje celý řetězec OCR včetně, analýzy rozložení stránky, detekci řádků, rozpoznání textu a dekódování textu s využitím jazykového modelu. Software je zaměřený na zpracování nekvalitních dokumentů (například digitalizovaných z mikrofilmů). Balíček poskytuje nástroj spustitelný z příkazové řádky i třídu, kterou je možné integrovat do vlastního software.
Název v anglickém jazyce
Adaptive OCR for older printed documents
Popis výsledku anglicky
This Python package implements the entire OCR pipeline, including page layout analysis, text line detection, text recognition, and text decoding using a language model. The software is focused on processing of low-quality documents (for example documents digitized from microfilms). The package provides a command-line tool and a class that can be integrated into your own software.
Klasifikace
Druh
R - Software
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/DG18P02OVV055" target="_blank" >DG18P02OVV055: Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2020
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
PERO-OCR-PRINT
Technické parametry
Využití na základě volné a bezplatné open-source licence
Ekonomické parametry
Jedná se jádro OCR software, který umožňuje zpracovat digitalizované obrázky a extrahovat obsažený text. Modul je možné integrovat do digitalizačních linek nebo dalšího software. Komerční uplatnění je možné v rámci poskytování doplňkových služeb, úprav sofwarare na míru a konzultací.
IČO vlastníka výsledku
—
Název vlastníka
Fakulta informačních technologií