All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Information extraction from semi-structured documents

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F22%3APR36477" target="_blank" >RIV/00216305:26230/22:PR36477 - isvavai.cz</a>

  • Result on the web

    <a href="https://www.fit.vut.cz/research/product/755/" target="_blank" >https://www.fit.vut.cz/research/product/755/</a>

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    Software pro extrakci informace z polostrukturovaných dokumentů

  • Original language description

    Tento software poskytuje komplexní nástroje pro extrakci informací z polostrukturovaných dokumentů. Tento software také poskytuje uživateli možnost trénovat vlastní model na datech podle vlastního přání. To zahrnuje několik dalších kroků, protože proces zahrnuje automatickou přípravu trénovacích dat pro model extrakce. Software je navržen pro použití jako aplikace příkazového řádku, ale je otevřený pro rozšíření o podporu dalších vstupních a výstupních formátů.

  • Czech name

    Software pro extrakci informace z polostrukturovaných dokumentů

  • Czech description

    Tento software poskytuje komplexní nástroje pro extrakci informací z polostrukturovaných dokumentů. Tento software také poskytuje uživateli možnost trénovat vlastní model na datech podle vlastního přání. To zahrnuje několik dalších kroků, protože proces zahrnuje automatickou přípravu trénovacích dat pro model extrakce. Software je navržen pro použití jako aplikace příkazového řádku, ale je otevřený pro rozšíření o podporu dalších vstupních a výstupních formátů.

Classification

  • Type

    R - Software

  • CEP classification

  • OECD FORD branch

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Result continuities

  • Project

    <a href="/en/project/DG18P02OVV055" target="_blank" >DG18P02OVV055: Advanced content extraction and recognition for printed and handwritten documents for better accessibility and usability</a><br>

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

  • Publication year

    2022

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Internal product ID

    PERO-INDEXER

  • Technical parameters

    Software je volně dostupný na základě a bezplatné open-source licence. Jedná se software, který umožňuje na základě příkladů extrahovat informace z polostrukturovaného textu ve formě vhodné pro vytváření databázových záznamů. Součástí je integrace s OCR, zarovnání existujících databázových záznamů, trénování modelů pro zpracování textu a zpracování konečné kolekce.

  • Economical parameters

    Software může být přímo používán dalšími subjekty na základě volné licence. Komerční uplatnění předpokládáme v rámci poskytování doplňkových služeb, podpory, integrace, úprav aplikace na míru a konzultací.

  • Owner IČO

    00216305

  • Owner name

    Vysoké učení technické v Brně