Information extraction from semi-structured documents
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F22%3APR36477" target="_blank" >RIV/00216305:26230/22:PR36477 - isvavai.cz</a>
Result on the web
<a href="https://www.fit.vut.cz/research/product/755/" target="_blank" >https://www.fit.vut.cz/research/product/755/</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Software pro extrakci informace z polostrukturovaných dokumentů
Original language description
Tento software poskytuje komplexní nástroje pro extrakci informací z polostrukturovaných dokumentů. Tento software také poskytuje uživateli možnost trénovat vlastní model na datech podle vlastního přání. To zahrnuje několik dalších kroků, protože proces zahrnuje automatickou přípravu trénovacích dat pro model extrakce. Software je navržen pro použití jako aplikace příkazového řádku, ale je otevřený pro rozšíření o podporu dalších vstupních a výstupních formátů.
Czech name
Software pro extrakci informace z polostrukturovaných dokumentů
Czech description
Tento software poskytuje komplexní nástroje pro extrakci informací z polostrukturovaných dokumentů. Tento software také poskytuje uživateli možnost trénovat vlastní model na datech podle vlastního přání. To zahrnuje několik dalších kroků, protože proces zahrnuje automatickou přípravu trénovacích dat pro model extrakce. Software je navržen pro použití jako aplikace příkazového řádku, ale je otevřený pro rozšíření o podporu dalších vstupních a výstupních formátů.
Classification
Type
R - Software
CEP classification
—
OECD FORD branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Result continuities
Project
<a href="/en/project/DG18P02OVV055" target="_blank" >DG18P02OVV055: Advanced content extraction and recognition for printed and handwritten documents for better accessibility and usability</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2022
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
PERO-INDEXER
Technical parameters
Software je volně dostupný na základě a bezplatné open-source licence. Jedná se software, který umožňuje na základě příkladů extrahovat informace z polostrukturovaného textu ve formě vhodné pro vytváření databázových záznamů. Součástí je integrace s OCR, zarovnání existujících databázových záznamů, trénování modelů pro zpracování textu a zpracování konečné kolekce.
Economical parameters
Software může být přímo používán dalšími subjekty na základě volné licence. Komerční uplatnění předpokládáme v rámci poskytování doplňkových služeb, podpory, integrace, úprav aplikace na míru a konzultací.
Owner IČO
00216305
Owner name
Vysoké učení technické v Brně