Software pro extrakci informace z polostrukturovaných dokumentů

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F22%3APR36477" target="_blank" >RIV/00216305:26230/22:PR36477 - isvavai.cz</a>
Výsledek na webu
<a href="https://www.fit.vut.cz/research/product/755/" target="_blank" >https://www.fit.vut.cz/research/product/755/</a>
DOI - Digital Object Identifier
—

Jazyk výsledku
čeština
Název v původním jazyce
Software pro extrakci informace z polostrukturovaných dokumentů
Popis výsledku v původním jazyce
Tento software poskytuje komplexní nástroje pro extrakci informací z polostrukturovaných dokumentů. Tento software také poskytuje uživateli možnost trénovat vlastní model na datech podle vlastního přání. To zahrnuje několik dalších kroků, protože proces zahrnuje automatickou přípravu trénovacích dat pro model extrakce. Software je navržen pro použití jako aplikace příkazového řádku, ale je otevřený pro rozšíření o podporu dalších vstupních a výstupních formátů.
Název v anglickém jazyce
Information extraction from semi-structured documents
Popis výsledku anglicky
This software provides a full pipeline for extraction of information from custom semi-structured documents. This software also provides the ability for the user to train their own model on data of their desire. This includes several additional steps as the process includes automatic preparation of training data for the extraction model. The software is designed for usage as a command line application, but it is open for extension to support additional input and output formats.

Druh
R - Software
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Projekt
<a href="/cs/project/DG18P02OVV055" target="_blank" >DG18P02OVV055: Pokročilá extrakce a rozpoznávání obsahu tištěných a rukou psaných digitalizátů pro zvýšení jejich přístupnosti a využitelnosti</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Rok uplatnění
2022
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Interní identifikační kód produktu
PERO-INDEXER
Technické parametry
Software je volně dostupný na základě a bezplatné open-source licence. Jedná se software, který umožňuje na základě příkladů extrahovat informace z polostrukturovaného textu ve formě vhodné pro vytváření databázových záznamů. Součástí je integrace s OCR, zarovnání existujících databázových záznamů, trénování modelů pro zpracování textu a zpracování konečné kolekce.
Ekonomické parametry
Software může být přímo používán dalšími subjekty na základě volné licence. Komerční uplatnění předpokládáme v rámci poskytování doplňkových služeb, podpory, integrace, úprav aplikace na míru a konzultací.
IČO vlastníka výsledku
00216305
Název vlastníka
Vysoké učení technické v Brně

Podobné výsledky(10)