PDFcurator
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00094943%3A_____%2F24%3AN0000030" target="_blank" >RIV/00094943:_____/24:N0000030 - isvavai.cz</a>
Výsledek na webu
<a href="https://github.com/moravianlibrary/PDFcurator" target="_blank" >https://github.com/moravianlibrary/PDFcurator</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
PDFcurator
Popis výsledku v původním jazyce
PDF Curator is a tool designed to convert any PDF file into a structured JSON format. Using OCR, Layout Detection, and Image Captioning techniques, the resulting JSON file captures key document elements, including text from individual pages, coordinates of text blocks, chapter headings and chapter lists, coordinates and descriptions of non-text elements, a list of non-text elements, and more. The software also includes a user-friendly GUI for managing PDFs and their JSON files. You can edit text, rename chapters, add new ones, and interact with non-text elements in the document. The software is modular, allowing users to replace or upgrade any component used for converting PDFs to JSON with newer or more suitable techniques/models as needed.
Název v anglickém jazyce
PDFcurator
Popis výsledku anglicky
PDF Curator is a tool designed to convert any PDF file into a structured JSON format. Using OCR, Layout Detection, and Image Captioning techniques, the resulting JSON file captures key document elements, including text from individual pages, coordinates of text blocks, chapter headings and chapter lists, coordinates and descriptions of non-text elements, a list of non-text elements, and more. The software also includes a user-friendly GUI for managing PDFs and their JSON files. You can edit text, rename chapters, add new ones, and interact with non-text elements in the document. The software is modular, allowing users to replace or upgrade any component used for converting PDFs to JSON with newer or more suitable techniques/models as needed.
Klasifikace
Druh
R - Software
CEP obor
—
OECD FORD obor
60500 - Other Humanities and the Arts
Návaznosti výsledku
Projekt
—
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
PDFcurator
Technické parametry
Open source řešení pro vytěžení dokumentů ve formátu PDF a převod do formátu JSON, programované v jazyce Python, využívající pouze open source komponenty a modely strojového učení.
Ekonomické parametry
Volně dostupné řešení využívající pouze open source komponenty a modely a je ekonomicky výhodné pro všechny uživatele pracující s PDF dokumenty. Pozoronost byla věnována nízké výpočetní náročnosti s ohledem na používané techniky a modularitu.
IČO vlastníka výsledku
—
Název vlastníka
Moravská zemská knihovna v Brně