Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Vytvoření modelu pro automatický přepis českých historických rukopisů: od digitální faksimile k editovanému textu (Projektová žádost SGS)

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F47813059%3A19240%2F24%3AA0001385" target="_blank" >RIV/47813059:19240/24:A0001385 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Vytvoření modelu pro automatický přepis českých historických rukopisů: od digitální faksimile k editovanému textu (Projektová žádost SGS)

  • Popis výsledku v původním jazyce

    Předmětem zájmu je automatické optické rozlišování písma (OCR). Zatímco OCR běžných tištěných dokumentů je již dříve dostatečně zvládnuto pomocí kvalitních nástrojů OCR, tak náročnější problematice OCR historických rukopisů a tisků s využitím umělé inteligence se věnují desítky výzkumníků a experimentátorů teprve v posledních letech. Zatím pro český rukopis (kurent) existuje v platformě Transkribus jenom jeden model transkripcie historického písma, který je však založen na velice malé vzorce písma. To znamená, že v Česku zatím není k dispozici dostatečne efektívní agregovaný model automatické transkripce, ktorý by byl vytvořen na dostatečně velkém množství stran v kvalite Ground Truth, které by bylo možné použít pro tvorbu lepších modelů transkripce. Důsledkem absence nástrojů automatické transkripci je, že historické dokumenty knihoven, muzeí, archivů a pod. jsou sice digitalizována, avšak jsou obvyjkle dostupná jenom jako digitální faksimile, obrázky (digitalizáty) bez transkripce. Tento vědecký úkol je spíš úkolem pro národní instituce... nez pro SGS. Cílem daného malého projektu SGS je přispět k řešení problému transkripce a připravit odborníky, kteří postupně budou řešit tento důležitý úkol týkající se zpřístupnění historických dokumentů z českých archivů, knihoven, muzeí a pod. S ohledem na vlastní jazykové schopnosti řešitele Vojtěcha Říhy je nejrelevantnější možností použití českého jazyka, tudíž bychom se soustředili na tvorbu HTR modelu v českém jazyce. Dalším mnohem důležitějším důvodem je současná absence takové modelu na platformě Transkribus, kterou bychom pro výzkum použili, také proto by bylo přínosné pro další potenciální automatickou transkripci rukopisných dokumentů psaných v českém jazyce disponovat kvalitním HTR modelem. V českém jazyce zatím neexistuje ucelený návod pro tvorbu HTR modelu na platformě Transkribus, tudíž také tato otázka správného postupu by byla obsahem práce. Pracovní návrh názvu: • Aspekty a principy uplatňované při tvorbě HTR modelu určeného k automatické transkripci rukopisných dokumentů psaných v českém jazyce (Sedlnická kronika resp. další české rukopisní dokumenty). Lukáš Němec se bude věnovat tvorbě modelu transkripce na základě historických dokumentů a spolupráce řešitele se Slezským muzeem v Opavě. Bude se věnovat tématu digitalizace, zdigitalizaci a transkripci dokumentů z kapucínské klášterní knihovny nástrojem Transkribus, transkribovat text a popsat metodiku práce

  • Název v anglickém jazyce

    Creation of a model for automatic transcription of Czech historical manuscripts: from digital facsimile to edited text (SGS Internal grant)

  • Popis výsledku anglicky

    The subject of interest is automatic optical character recognition (OCR). While the OCR of ordinary printed documents has already been sufficiently mastered using high-quality OCR tools, tens of researchers and experimenters only in recent years. So far, for the Czech manuscript (kurent), there is only one historical script transcription model in the Transkribus platform, but it is based on very small script patterns. This means that a sufficiently effective aggregated model is not yet available in the Czech Republic automatic transcription that would be built on a large enough number of Ground Truth quality pages that could be used to build better transcription models. The consequence of the absence of automatic transcription tools is that historical documents of libraries, museums, archives, etc. they are though digitized, but are usually only available as digital facsimiles, images (digitized) without transcription. This scientific task is more a task for national institutions... than for SGS. The aim of this small SGS project is to contribute to solving the problem of transcription and to prepare experts who will gradually become solve this important task regarding making available historical documents from Czech archives, libraries, museums, etc. Taking into account the language skills of the researcher Vojtěch Říha, the most relevant option is to use the Czech language, so we would focus on the creation of the HTR model in the Czech language. Another much more important reason is the current absence of such a model on the Transkribus platform, which we would use for research, which is also why it would be beneficial to have a high-quality HTR model available for further potential automatic transcription of handwritten documents written in the Czech language. In the Czech language, there is still no comprehensive guide for the creation of the HTR model on the Transkribus platform, so this question of the correct procedure would also be the content of the work. Working draft of the title: • Aspects and principles applied in the creation of the HTR model intended for the automatic transcription of handwritten documents written in the Czech language (Sedlnická chronicle or other Czech manuscript documents). Lukáš Němec will devote himself to the creation of a transcription model based on historical documents and the researcher's cooperation with the Silesian Museum in Opava. It will focus on the topic of digitization, digitization and transcription of documents from the Capucin monastery library with the Transkribus tool, to transcribe the text and describe - the methodology of the work.

Klasifikace

  • Druh

    V<sub>souhrn</sub> - Souhrnná výzkumná zpráva

  • CEP obor

  • OECD FORD obor

    50804 - Library science

Návaznosti výsledku

  • Projekt

  • Návaznosti

    S - Specificky vyzkum na vysokych skolach

Ostatní

  • Rok uplatnění

    2024

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Počet stran výsledku

    3

  • Místo vydání

    SU OPAVA

  • Název nakladatele resp. objednatele

    SU FPF

  • Verze