All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Creation of a model for automatic transcription of Czech historical manuscripts: from digital facsimile to edited text (SGS Internal grant)

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F47813059%3A19240%2F24%3AA0001385" target="_blank" >RIV/47813059:19240/24:A0001385 - isvavai.cz</a>

  • Result on the web

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    Vytvoření modelu pro automatický přepis českých historických rukopisů: od digitální faksimile k editovanému textu (Projektová žádost SGS)

  • Original language description

    Předmětem zájmu je automatické optické rozlišování písma (OCR). Zatímco OCR běžných tištěných dokumentů je již dříve dostatečně zvládnuto pomocí kvalitních nástrojů OCR, tak náročnější problematice OCR historických rukopisů a tisků s využitím umělé inteligence se věnují desítky výzkumníků a experimentátorů teprve v posledních letech. Zatím pro český rukopis (kurent) existuje v platformě Transkribus jenom jeden model transkripcie historického písma, který je však založen na velice malé vzorce písma. To znamená, že v Česku zatím není k dispozici dostatečne efektívní agregovaný model automatické transkripce, ktorý by byl vytvořen na dostatečně velkém množství stran v kvalite Ground Truth, které by bylo možné použít pro tvorbu lepších modelů transkripce. Důsledkem absence nástrojů automatické transkripci je, že historické dokumenty knihoven, muzeí, archivů a pod. jsou sice digitalizována, avšak jsou obvyjkle dostupná jenom jako digitální faksimile, obrázky (digitalizáty) bez transkripce. Tento vědecký úkol je spíš úkolem pro národní instituce... nez pro SGS. Cílem daného malého projektu SGS je přispět k řešení problému transkripce a připravit odborníky, kteří postupně budou řešit tento důležitý úkol týkající se zpřístupnění historických dokumentů z českých archivů, knihoven, muzeí a pod. S ohledem na vlastní jazykové schopnosti řešitele Vojtěcha Říhy je nejrelevantnější možností použití českého jazyka, tudíž bychom se soustředili na tvorbu HTR modelu v českém jazyce. Dalším mnohem důležitějším důvodem je současná absence takové modelu na platformě Transkribus, kterou bychom pro výzkum použili, také proto by bylo přínosné pro další potenciální automatickou transkripci rukopisných dokumentů psaných v českém jazyce disponovat kvalitním HTR modelem. V českém jazyce zatím neexistuje ucelený návod pro tvorbu HTR modelu na platformě Transkribus, tudíž také tato otázka správného postupu by byla obsahem práce. Pracovní návrh názvu: • Aspekty a principy uplatňované při tvorbě HTR modelu určeného k automatické transkripci rukopisných dokumentů psaných v českém jazyce (Sedlnická kronika resp. další české rukopisní dokumenty). Lukáš Němec se bude věnovat tvorbě modelu transkripce na základě historických dokumentů a spolupráce řešitele se Slezským muzeem v Opavě. Bude se věnovat tématu digitalizace, zdigitalizaci a transkripci dokumentů z kapucínské klášterní knihovny nástrojem Transkribus, transkribovat text a popsat metodiku práce

  • Czech name

    Vytvoření modelu pro automatický přepis českých historických rukopisů: od digitální faksimile k editovanému textu (Projektová žádost SGS)

  • Czech description

    Předmětem zájmu je automatické optické rozlišování písma (OCR). Zatímco OCR běžných tištěných dokumentů je již dříve dostatečně zvládnuto pomocí kvalitních nástrojů OCR, tak náročnější problematice OCR historických rukopisů a tisků s využitím umělé inteligence se věnují desítky výzkumníků a experimentátorů teprve v posledních letech. Zatím pro český rukopis (kurent) existuje v platformě Transkribus jenom jeden model transkripcie historického písma, který je však založen na velice malé vzorce písma. To znamená, že v Česku zatím není k dispozici dostatečne efektívní agregovaný model automatické transkripce, ktorý by byl vytvořen na dostatečně velkém množství stran v kvalite Ground Truth, které by bylo možné použít pro tvorbu lepších modelů transkripce. Důsledkem absence nástrojů automatické transkripci je, že historické dokumenty knihoven, muzeí, archivů a pod. jsou sice digitalizována, avšak jsou obvyjkle dostupná jenom jako digitální faksimile, obrázky (digitalizáty) bez transkripce. Tento vědecký úkol je spíš úkolem pro národní instituce... nez pro SGS. Cílem daného malého projektu SGS je přispět k řešení problému transkripce a připravit odborníky, kteří postupně budou řešit tento důležitý úkol týkající se zpřístupnění historických dokumentů z českých archivů, knihoven, muzeí a pod. S ohledem na vlastní jazykové schopnosti řešitele Vojtěcha Říhy je nejrelevantnější možností použití českého jazyka, tudíž bychom se soustředili na tvorbu HTR modelu v českém jazyce. Dalším mnohem důležitějším důvodem je současná absence takové modelu na platformě Transkribus, kterou bychom pro výzkum použili, také proto by bylo přínosné pro další potenciální automatickou transkripci rukopisných dokumentů psaných v českém jazyce disponovat kvalitním HTR modelem. V českém jazyce zatím neexistuje ucelený návod pro tvorbu HTR modelu na platformě Transkribus, tudíž také tato otázka správného postupu by byla obsahem práce. Pracovní návrh názvu: • Aspekty a principy uplatňované při tvorbě HTR modelu určeného k automatické transkripci rukopisných dokumentů psaných v českém jazyce (Sedlnická kronika resp. další české rukopisní dokumenty). Lukáš Němec se bude věnovat tvorbě modelu transkripce na základě historických dokumentů a spolupráce řešitele se Slezským muzeem v Opavě. Bude se věnovat tématu digitalizace, zdigitalizaci a transkripci dokumentů z kapucínské klášterní knihovny nástrojem Transkribus, transkribovat text a popsat metodiku práce

Classification

  • Type

    V<sub>souhrn</sub> - Summary research report

  • CEP classification

  • OECD FORD branch

    50804 - Library science

Result continuities

  • Project

  • Continuities

    S - Specificky vyzkum na vysokych skolach

Others

  • Publication year

    2024

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Number of pages

    3

  • Place of publication

    SU OPAVA

  • Publisher/client name

    SU FPF

  • Version