Creation of a model for automatic transcription of Czech historical manuscripts: from digital facsimile to edited text (SGS Internal grant)

The result's identifiers

Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F47813059%3A19240%2F24%3AA0001385" target="_blank" >RIV/47813059:19240/24:A0001385 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—

Alternative languages

Result language
čeština
Original language name
Vytvoření modelu pro automatický přepis českých historických rukopisů: od digitální faksimile k editovanému textu (Projektová žádost SGS)
Original language description
Předmětem zájmu je automatické optické rozlišování písma (OCR). Zatímco OCR běžných tištěných dokumentů je již dříve dostatečně zvládnuto pomocí kvalitních nástrojů OCR, tak náročnější problematice OCR historických rukopisů a tisků s využitím umělé inteligence se věnují desítky výzkumníků a experimentátorů teprve v posledních letech. Zatím pro český rukopis (kurent) existuje v platformě Transkribus jenom jeden model transkripcie historického písma, který je však založen na velice malé vzorce písma. To znamená, že v Česku zatím není k dispozici dostatečne efektívní agregovaný model automatické transkripce, ktorý by byl vytvořen na dostatečně velkém množství stran v kvalite Ground Truth, které by bylo možné použít pro tvorbu lepších modelů transkripce. Důsledkem absence nástrojů automatické transkripci je, že historické dokumenty knihoven, muzeí, archivů a pod. jsou sice digitalizována, avšak jsou obvyjkle dostupná jenom jako digitální faksimile, obrázky (digitalizáty) bez transkripce. Tento vědecký úkol je spíš úkolem pro národní instituce... nez pro SGS. Cílem daného malého projektu SGS je přispět k řešení problému transkripce a připravit odborníky, kteří postupně budou řešit tento důležitý úkol týkající se zpřístupnění historických dokumentů z českých archivů, knihoven, muzeí a pod. S ohledem na vlastní jazykové schopnosti řešitele Vojtěcha Říhy je nejrelevantnější možností použití českého jazyka, tudíž bychom se soustředili na tvorbu HTR modelu v českém jazyce. Dalším mnohem důležitějším důvodem je současná absence takové modelu na platformě Transkribus, kterou bychom pro výzkum použili, také proto by bylo přínosné pro další potenciální automatickou transkripci rukopisných dokumentů psaných v českém jazyce disponovat kvalitním HTR modelem. V českém jazyce zatím neexistuje ucelený návod pro tvorbu HTR modelu na platformě Transkribus, tudíž také tato otázka správného postupu by byla obsahem práce. Pracovní návrh názvu: • Aspekty a principy uplatňované při tvorbě HTR modelu určeného k automatické transkripci rukopisných dokumentů psaných v českém jazyce (Sedlnická kronika resp. další české rukopisní dokumenty). Lukáš Němec se bude věnovat tvorbě modelu transkripce na základě historických dokumentů a spolupráce řešitele se Slezským muzeem v Opavě. Bude se věnovat tématu digitalizace, zdigitalizaci a transkripci dokumentů z kapucínské klášterní knihovny nástrojem Transkribus, transkribovat text a popsat metodiku práce
Czech name
Vytvoření modelu pro automatický přepis českých historických rukopisů: od digitální faksimile k editovanému textu (Projektová žádost SGS)
Czech description
Předmětem zájmu je automatické optické rozlišování písma (OCR). Zatímco OCR běžných tištěných dokumentů je již dříve dostatečně zvládnuto pomocí kvalitních nástrojů OCR, tak náročnější problematice OCR historických rukopisů a tisků s využitím umělé inteligence se věnují desítky výzkumníků a experimentátorů teprve v posledních letech. Zatím pro český rukopis (kurent) existuje v platformě Transkribus jenom jeden model transkripcie historického písma, který je však založen na velice malé vzorce písma. To znamená, že v Česku zatím není k dispozici dostatečne efektívní agregovaný model automatické transkripce, ktorý by byl vytvořen na dostatečně velkém množství stran v kvalite Ground Truth, které by bylo možné použít pro tvorbu lepších modelů transkripce. Důsledkem absence nástrojů automatické transkripci je, že historické dokumenty knihoven, muzeí, archivů a pod. jsou sice digitalizována, avšak jsou obvyjkle dostupná jenom jako digitální faksimile, obrázky (digitalizáty) bez transkripce. Tento vědecký úkol je spíš úkolem pro národní instituce... nez pro SGS. Cílem daného malého projektu SGS je přispět k řešení problému transkripce a připravit odborníky, kteří postupně budou řešit tento důležitý úkol týkající se zpřístupnění historických dokumentů z českých archivů, knihoven, muzeí a pod. S ohledem na vlastní jazykové schopnosti řešitele Vojtěcha Říhy je nejrelevantnější možností použití českého jazyka, tudíž bychom se soustředili na tvorbu HTR modelu v českém jazyce. Dalším mnohem důležitějším důvodem je současná absence takové modelu na platformě Transkribus, kterou bychom pro výzkum použili, také proto by bylo přínosné pro další potenciální automatickou transkripci rukopisných dokumentů psaných v českém jazyce disponovat kvalitním HTR modelem. V českém jazyce zatím neexistuje ucelený návod pro tvorbu HTR modelu na platformě Transkribus, tudíž také tato otázka správného postupu by byla obsahem práce. Pracovní návrh názvu: • Aspekty a principy uplatňované při tvorbě HTR modelu určeného k automatické transkripci rukopisných dokumentů psaných v českém jazyce (Sedlnická kronika resp. další české rukopisní dokumenty). Lukáš Němec se bude věnovat tvorbě modelu transkripce na základě historických dokumentů a spolupráce řešitele se Slezským muzeem v Opavě. Bude se věnovat tématu digitalizace, zdigitalizaci a transkripci dokumentů z kapucínské klášterní knihovny nástrojem Transkribus, transkribovat text a popsat metodiku práce

Classification

Type
V<sub>souhrn</sub> - Summary research report
CEP classification
—
OECD FORD branch
50804 - Library science

Result continuities

Project
—
Continuities
S - Specificky vyzkum na vysokych skolach

Others

Publication year
2024
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

Number of pages
3
Place of publication
SU OPAVA
Publisher/client name
SU FPF
Version
—

Similar results(10)

Artificial intelligence helps make written heritage accessible Model of automatic transcription of a historical document using the platform Transkribus and PERO.cz SGS final report. Model of automatic transcription of a historical document using the platform Transkribus and PERO.cz. SGS/7/2023

What are you looking for?

Quick search

Smart search

Creation of a model for automatic transcription of Czech historical manuscripts: from digital facsimile to edited text (SGS Internal grant)

The result's identifiers

Alternative languages

Classification

Result continuities

Others

Data specific for result type

Similar results(10)

What are you looking for?

Quick search

Smart search

Result description

The result's identifiers

The result's identifiers

Alternative languages

Alternative languages

Classification

Classification

Result continuities

Result continuities

Others

Others

Data specific for result type

Data specific for result type

Similar results(10)