Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Software pro extrakci informace z polostrukturovaných dokumentů

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F22%3APR36477" target="_blank" >RIV/00216305:26230/22:PR36477 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://www.fit.vut.cz/research/product/755/" target="_blank" >https://www.fit.vut.cz/research/product/755/</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Software pro extrakci informace z polostrukturovaných dokumentů

  • Popis výsledku v původním jazyce

    Tento software poskytuje komplexní nástroje pro extrakci informací z polostrukturovaných dokumentů. Tento software také poskytuje uživateli možnost trénovat vlastní model na datech podle vlastního přání. To zahrnuje několik dalších kroků, protože proces zahrnuje automatickou přípravu trénovacích dat pro model extrakce. Software je navržen pro použití jako aplikace příkazového řádku, ale je otevřený pro rozšíření o podporu dalších vstupních a výstupních formátů.

  • Název v anglickém jazyce

    Information extraction from semi-structured documents

  • Popis výsledku anglicky

    This software provides a full pipeline for extraction of information from custom semi-structured documents. This software also provides the ability for the user to train their own model on data of their desire. This includes several additional steps as the process includes automatic preparation of training data for the extraction model. The software is designed for usage as a command line application, but it is open for extension to support additional input and output formats.

Klasifikace

  • Druh

    R - Software

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/DG18P02OVV055" target="_blank" >DG18P02OVV055: Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2022

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    PERO-INDEXER

  • Technické parametry

    Software je volně dostupný na základě a bezplatné open-source licence. Jedná se software, který umožňuje na základě příkladů extrahovat informace z polostrukturovaného textu ve formě vhodné pro vytváření databázových záznamů. Součástí je integrace s OCR, zarovnání existujících databázových záznamů, trénování modelů pro zpracování textu a zpracování konečné kolekce.

  • Ekonomické parametry

    Software může být přímo používán dalšími subjekty na základě volné licence. Komerční uplatnění předpokládáme v rámci poskytování doplňkových služeb, podpory, integrace, úprav aplikace na míru a konzultací.

  • IČO vlastníka výsledku

    00216305

  • Název vlastníka

    Vysoké učení technické v Brně