Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Software pro adaptabilní rozpoznávání textu starých tisků

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F20%3APR34240" target="_blank" >RIV/00216305:26230/20:PR34240 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://www.fit.vut.cz/research/product/666/" target="_blank" >https://www.fit.vut.cz/research/product/666/</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Software pro adaptabilní rozpoznávání textu starých tisků

  • Popis výsledku v původním jazyce

    Tento Python balíček zapouzdřuje celý řetězec OCR včetně, analýzy rozložení stránky, detekci řádků, rozpoznání textu a dekódování textu s využitím jazykového modelu. Software je zaměřený na zpracování nekvalitních dokumentů (například digitalizovaných z mikrofilmů). Balíček poskytuje nástroj spustitelný z příkazové řádky i třídu, kterou je možné integrovat do vlastního software.

  • Název v anglickém jazyce

    Adaptive OCR for older printed documents

  • Popis výsledku anglicky

    This Python package implements the entire OCR pipeline, including page layout analysis, text line detection, text recognition, and text decoding using a language model. The software is focused on processing of low-quality documents (for example documents digitized from microfilms). The package provides a command-line tool and a class that can be integrated into your own software.

Klasifikace

  • Druh

    R - Software

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/DG18P02OVV055" target="_blank" >DG18P02OVV055: Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2020

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    PERO-OCR-PRINT

  • Technické parametry

    Využití na základě volné a bezplatné open-source licence 

  • Ekonomické parametry

    Jedná se jádro OCR software, který umožňuje zpracovat digitalizované obrázky a extrahovat obsažený text. Modul je možné integrovat do digitalizačních linek nebo dalšího software. Komerční uplatnění je možné v rámci poskytování doplňkových služeb, úprav sofwarare na míru a konzultací.

  • IČO vlastníka výsledku

  • Název vlastníka

    Fakulta informačních technologií