All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00094943%3A_____%2F24%3AN0000030" target="_blank" >RIV/00094943:_____/24:N0000030 - isvavai.cz</a>

  • Result on the web

    <a href="https://github.com/moravianlibrary/PDFcurator" target="_blank" >https://github.com/moravianlibrary/PDFcurator</a>

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    angličtina

  • Original language name

    PDFcurator

  • Original language description

    PDF Curator is a tool designed to convert any PDF file into a structured JSON format. Using OCR, Layout Detection, and Image Captioning techniques, the resulting JSON file captures key document elements, including text from individual pages, coordinates of text blocks, chapter headings and chapter lists, coordinates and descriptions of non-text elements, a list of non-text elements, and more. The software also includes a user-friendly GUI for managing PDFs and their JSON files. You can edit text, rename chapters, add new ones, and interact with non-text elements in the document. The software is modular, allowing users to replace or upgrade any component used for converting PDFs to JSON with newer or more suitable techniques/models as needed.

  • Czech name

  • Czech description

Classification

  • Type

    R - Software

  • CEP classification

  • OECD FORD branch

    60500 - Other Humanities and the Arts

Result continuities

  • Project

  • Continuities

    I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace

Others

  • Publication year

    2024

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Internal product ID

    PDFcurator

  • Technical parameters

    Open source řešení pro vytěžení dokumentů ve formátu PDF a převod do formátu JSON, programované v jazyce Python, využívající pouze open source komponenty a modely strojového učení.

  • Economical parameters

    Volně dostupné řešení využívající pouze open source komponenty a modely a je ekonomicky výhodné pro všechny uživatele pracující s PDF dokumenty. Pozoronost byla věnována nízké výpočetní náročnosti s ohledem na používané techniky a modularitu.

  • Owner IČO

  • Owner name

    Moravská zemská knihovna v Brně