Methodology for Transferring Structured Knowledge from Dialectology into Machine Learning
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F25%3APR40073" target="_blank" >RIV/00216305:26230/25:PR40073 - isvavai.cz</a>
Alternative codes found
RIV/61989592:15310/25:73628600
Result on the web
<a href="https://www.fit.vut.cz/research/product/843/" target="_blank" >https://www.fit.vut.cz/research/product/843/</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Metodika pro převod strukturovaných znalostí z oboru dialektologie do strojového učení
Original language description
Metodika zpracovává problematiku přípravy a využití nářečních dat v dialektologii prostřednictvím moderních technologií strojového učení. Zaměřuje se na procesy konsolidace, standardizace a strukturování audiálních a textových materiálů, které tvoří základ pro vývoj automatických nástrojů pro transkripci řeči. Středobodem je představení postupů uplatnitelných při digitalizaci a normalizaci textových dat, obsahuje rovněž podrobný popis audiální dokumentace nářečí v terénu se zaměřením na různé explorační metody, a to včetně digitální archivace a katalogizace nahrávek. Metodika propojuje teoretické poznatky o sběru a zpracování nářečního materiálu s praktickými postupy, které zahrnují nasazení strojového učení. Důraz je kladen na interdisciplinární přístup, který kombinuje lingvistické znalosti s technologickými nástroji pro automatizaci práce. Součástí metodiky jsou také postupy vizualizace dialektologických dat pomocí tematické kartografie, vedoucí k tvorbě interaktivních zvukových map či webových atlasů. Dokument slouží nejen jako praktický průvodce pro přípravu specifického jazykového materiálu, ale i jako inspirace pro další výzkumné týmy, a to jak v oblasti dialektologie, tak v rámci širšího zapojení strojového učení do humanitních věd.
Czech name
Metodika pro převod strukturovaných znalostí z oboru dialektologie do strojového učení
Czech description
Metodika zpracovává problematiku přípravy a využití nářečních dat v dialektologii prostřednictvím moderních technologií strojového učení. Zaměřuje se na procesy konsolidace, standardizace a strukturování audiálních a textových materiálů, které tvoří základ pro vývoj automatických nástrojů pro transkripci řeči. Středobodem je představení postupů uplatnitelných při digitalizaci a normalizaci textových dat, obsahuje rovněž podrobný popis audiální dokumentace nářečí v terénu se zaměřením na různé explorační metody, a to včetně digitální archivace a katalogizace nahrávek. Metodika propojuje teoretické poznatky o sběru a zpracování nářečního materiálu s praktickými postupy, které zahrnují nasazení strojového učení. Důraz je kladen na interdisciplinární přístup, který kombinuje lingvistické znalosti s technologickými nástroji pro automatizaci práce. Součástí metodiky jsou také postupy vizualizace dialektologických dat pomocí tematické kartografie, vedoucí k tvorbě interaktivních zvukových map či webových atlasů. Dokument slouží nejen jako praktický průvodce pro přípravu specifického jazykového materiálu, ale i jako inspirace pro další výzkumné týmy, a to jak v oblasti dialektologie, tak v rámci širšího zapojení strojového učení do humanitních věd.
Classification
Type
N<sub>metC</sub> - Methodology certified by the authorised body
CEP classification
—
OECD FORD branch
60203 - Linguistics
Result continuities
Project
<a href="/en/project/DH23P03OVV010" target="_blank" >DH23P03OVV010: Language memory of the regions of the Czech Republic. Machine learning methods for preservation, documentation and presentation of the Czech dialects</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2025
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
MK 8564/2025 OVV
Regulation ID
NmetS
Technical parameters
Ministerstvo kultury ČR, Odbor výzkumu a vývoje, Osvědčení č. 304 Č.j. MK 8564/2025 OVV, Sp. zn. MK-S 12060/2022 OVV
Economical parameters
V rámci řešení projektu nelze vyčíslit. Ekonomický impakt nebyl primárním cílem metodiky. Využívání představených postupů však může vést ke značnému zefektivnění zpracování dialektologických dat, audiálních i textových, čímž dojde k významné úspoře osobních nákladů dotčených institucí. Zavedení doporučené metodiky může přinést podstatné snížení nákladů na OCR a proofreading nářečních textů, též - v případě vyvinutí automatického přepisovače optimalizovaného právě na česká nářeční data - značnou úsporu v rámci transkripčních prací u materiálu audiálního.
Certification body designation
Ministerstvo kultury ČR, Maltézské náměstí 1, Praha 1, CZ
Date of certification
—
Method of use
C - Výsledek je využíván bez omezení okruhu uživatelů