Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00094943%3A_____%2F24%3AN0000030" target="_blank" >RIV/00094943:_____/24:N0000030 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://github.com/moravianlibrary/PDFcurator" target="_blank" >https://github.com/moravianlibrary/PDFcurator</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    PDFcurator

  • Popis výsledku v původním jazyce

    PDF Curator is a tool designed to convert any PDF file into a structured JSON format. Using OCR, Layout Detection, and Image Captioning techniques, the resulting JSON file captures key document elements, including text from individual pages, coordinates of text blocks, chapter headings and chapter lists, coordinates and descriptions of non-text elements, a list of non-text elements, and more. The software also includes a user-friendly GUI for managing PDFs and their JSON files. You can edit text, rename chapters, add new ones, and interact with non-text elements in the document. The software is modular, allowing users to replace or upgrade any component used for converting PDFs to JSON with newer or more suitable techniques/models as needed.

  • Název v anglickém jazyce

    PDFcurator

  • Popis výsledku anglicky

    PDF Curator is a tool designed to convert any PDF file into a structured JSON format. Using OCR, Layout Detection, and Image Captioning techniques, the resulting JSON file captures key document elements, including text from individual pages, coordinates of text blocks, chapter headings and chapter lists, coordinates and descriptions of non-text elements, a list of non-text elements, and more. The software also includes a user-friendly GUI for managing PDFs and their JSON files. You can edit text, rename chapters, add new ones, and interact with non-text elements in the document. The software is modular, allowing users to replace or upgrade any component used for converting PDFs to JSON with newer or more suitable techniques/models as needed.

Klasifikace

  • Druh

    R - Software

  • CEP obor

  • OECD FORD obor

    60500 - Other Humanities and the Arts

Návaznosti výsledku

  • Projekt

  • Návaznosti

    I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace

Ostatní

  • Rok uplatnění

    2024

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    PDFcurator

  • Technické parametry

    Open source řešení pro vytěžení dokumentů ve formátu PDF a převod do formátu JSON, programované v jazyce Python, využívající pouze open source komponenty a modely strojového učení.

  • Ekonomické parametry

    Volně dostupné řešení využívající pouze open source komponenty a modely a je ekonomicky výhodné pro všechny uživatele pracující s PDF dokumenty. Pozoronost byla věnována nízké výpočetní náročnosti s ohledem na používané techniky a modularitu.

  • IČO vlastníka výsledku

  • Název vlastníka

    Moravská zemská knihovna v Brně