Vytvoření modelu pro automatický přepis českých historických rukopisů: od digitální faksimile k editovanému textu (Projektová žádost SGS)
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F47813059%3A19240%2F24%3AA0001385" target="_blank" >RIV/47813059:19240/24:A0001385 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Vytvoření modelu pro automatický přepis českých historických rukopisů: od digitální faksimile k editovanému textu (Projektová žádost SGS)
Popis výsledku v původním jazyce
Předmětem zájmu je automatické optické rozlišování písma (OCR). Zatímco OCR běžných tištěných dokumentů je již dříve dostatečně zvládnuto pomocí kvalitních nástrojů OCR, tak náročnější problematice OCR historických rukopisů a tisků s využitím umělé inteligence se věnují desítky výzkumníků a experimentátorů teprve v posledních letech. Zatím pro český rukopis (kurent) existuje v platformě Transkribus jenom jeden model transkripcie historického písma, který je však založen na velice malé vzorce písma. To znamená, že v Česku zatím není k dispozici dostatečne efektívní agregovaný model automatické transkripce, ktorý by byl vytvořen na dostatečně velkém množství stran v kvalite Ground Truth, které by bylo možné použít pro tvorbu lepších modelů transkripce. Důsledkem absence nástrojů automatické transkripci je, že historické dokumenty knihoven, muzeí, archivů a pod. jsou sice digitalizována, avšak jsou obvyjkle dostupná jenom jako digitální faksimile, obrázky (digitalizáty) bez transkripce. Tento vědecký úkol je spíš úkolem pro národní instituce... nez pro SGS. Cílem daného malého projektu SGS je přispět k řešení problému transkripce a připravit odborníky, kteří postupně budou řešit tento důležitý úkol týkající se zpřístupnění historických dokumentů z českých archivů, knihoven, muzeí a pod. S ohledem na vlastní jazykové schopnosti řešitele Vojtěcha Říhy je nejrelevantnější možností použití českého jazyka, tudíž bychom se soustředili na tvorbu HTR modelu v českém jazyce. Dalším mnohem důležitějším důvodem je současná absence takové modelu na platformě Transkribus, kterou bychom pro výzkum použili, také proto by bylo přínosné pro další potenciální automatickou transkripci rukopisných dokumentů psaných v českém jazyce disponovat kvalitním HTR modelem. V českém jazyce zatím neexistuje ucelený návod pro tvorbu HTR modelu na platformě Transkribus, tudíž také tato otázka správného postupu by byla obsahem práce. Pracovní návrh názvu: • Aspekty a principy uplatňované při tvorbě HTR modelu určeného k automatické transkripci rukopisných dokumentů psaných v českém jazyce (Sedlnická kronika resp. další české rukopisní dokumenty). Lukáš Němec se bude věnovat tvorbě modelu transkripce na základě historických dokumentů a spolupráce řešitele se Slezským muzeem v Opavě. Bude se věnovat tématu digitalizace, zdigitalizaci a transkripci dokumentů z kapucínské klášterní knihovny nástrojem Transkribus, transkribovat text a popsat metodiku práce
Název v anglickém jazyce
Creation of a model for automatic transcription of Czech historical manuscripts: from digital facsimile to edited text (SGS Internal grant)
Popis výsledku anglicky
The subject of interest is automatic optical character recognition (OCR). While the OCR of ordinary printed documents has already been sufficiently mastered using high-quality OCR tools, tens of researchers and experimenters only in recent years. So far, for the Czech manuscript (kurent), there is only one historical script transcription model in the Transkribus platform, but it is based on very small script patterns. This means that a sufficiently effective aggregated model is not yet available in the Czech Republic automatic transcription that would be built on a large enough number of Ground Truth quality pages that could be used to build better transcription models. The consequence of the absence of automatic transcription tools is that historical documents of libraries, museums, archives, etc. they are though digitized, but are usually only available as digital facsimiles, images (digitized) without transcription. This scientific task is more a task for national institutions... than for SGS. The aim of this small SGS project is to contribute to solving the problem of transcription and to prepare experts who will gradually become solve this important task regarding making available historical documents from Czech archives, libraries, museums, etc. Taking into account the language skills of the researcher Vojtěch Říha, the most relevant option is to use the Czech language, so we would focus on the creation of the HTR model in the Czech language. Another much more important reason is the current absence of such a model on the Transkribus platform, which we would use for research, which is also why it would be beneficial to have a high-quality HTR model available for further potential automatic transcription of handwritten documents written in the Czech language. In the Czech language, there is still no comprehensive guide for the creation of the HTR model on the Transkribus platform, so this question of the correct procedure would also be the content of the work. Working draft of the title: • Aspects and principles applied in the creation of the HTR model intended for the automatic transcription of handwritten documents written in the Czech language (Sedlnická chronicle or other Czech manuscript documents). Lukáš Němec will devote himself to the creation of a transcription model based on historical documents and the researcher's cooperation with the Silesian Museum in Opava. It will focus on the topic of digitization, digitization and transcription of documents from the Capucin monastery library with the Transkribus tool, to transcribe the text and describe - the methodology of the work.
Klasifikace
Druh
V<sub>souhrn</sub> - Souhrnná výzkumná zpráva
CEP obor
—
OECD FORD obor
50804 - Library science
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Počet stran výsledku
3
Místo vydání
SU OPAVA
Název nakladatele resp. objednatele
SU FPF
Verze
—