PDFcurator
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00094943%3A_____%2F24%3AN0000030" target="_blank" >RIV/00094943:_____/24:N0000030 - isvavai.cz</a>
Result on the web
<a href="https://github.com/moravianlibrary/PDFcurator" target="_blank" >https://github.com/moravianlibrary/PDFcurator</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
angličtina
Original language name
PDFcurator
Original language description
PDF Curator is a tool designed to convert any PDF file into a structured JSON format. Using OCR, Layout Detection, and Image Captioning techniques, the resulting JSON file captures key document elements, including text from individual pages, coordinates of text blocks, chapter headings and chapter lists, coordinates and descriptions of non-text elements, a list of non-text elements, and more. The software also includes a user-friendly GUI for managing PDFs and their JSON files. You can edit text, rename chapters, add new ones, and interact with non-text elements in the document. The software is modular, allowing users to replace or upgrade any component used for converting PDFs to JSON with newer or more suitable techniques/models as needed.
Czech name
—
Czech description
—
Classification
Type
R - Software
CEP classification
—
OECD FORD branch
60500 - Other Humanities and the Arts
Result continuities
Project
—
Continuities
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Others
Publication year
2024
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
PDFcurator
Technical parameters
Open source řešení pro vytěžení dokumentů ve formátu PDF a převod do formátu JSON, programované v jazyce Python, využívající pouze open source komponenty a modely strojového učení.
Economical parameters
Volně dostupné řešení využívající pouze open source komponenty a modely a je ekonomicky výhodné pro všechny uživatele pracující s PDF dokumenty. Pozoronost byla věnována nízké výpočetní náročnosti s ohledem na používané techniky a modularitu.
Owner IČO
—
Owner name
Moravská zemská knihovna v Brně