Language memory of the regions of the Czech Republic. Machine learning methods for preservation, documentation and presentation of the Czech dialects
Public support
Provider
Ministry of Culture
Programme
—
Call for proposals
SMK02023DH001
Main participants
Univerzita Palackého v Olomouci / Přírodovědecká fakulta<br>Ústav pro jazyk český AV ČR, v. v. i.<br>Vysoké učení technické v Brně / Fakulta informačních technologií
Contest type
VS - Public tender
Contract ID
DH23P03OVV010
Alternative language
Project name in Czech
Jazyková paměť regionů České republiky. Metody strojového učení pro uchování, dokumentaci a prezentaci nářečí českého jazyka
Annotation in Czech
Cílem projektu je adaptovat existující technologie a vyvinout zcela nové postupy pro využití umělé inteligence při automatickém zpracování přirozeného mluveného jazyka v jeho regionálně rozrůzněné podobě, konkrétně na modelu českých nářečí. Půjde o první projekt svého druhu – automatické rozpoznávání řeči bylo dosud aplikováno výhradně na promluvy s majoritním zastoupením spisovných prvků. Takto jedinečný projekt výrazným způsobem zefektivní práci s autentickým zvukovým materiálem, jehož ruční zpracování je (nejen pro jazykovědce) za současných podmínek časově nesmírně náročné. Zároveň umožní snazší a efektivnější dokumentaci nářečí českého jazyka a interaktivní prezentaci tohoto mizejícího jazykového dědictví. Cíl bude dosažen (1) tvorbou inovativní Metodiky pro převod strukturovaných znalostí z oboru dialektologie do strojového učení, (2) intenzivní prací na datových sadách, především vybudováním Databáze nářečních promluv pro odbornou veřejnost, jejíž naplnění reprezentativními audiozáznamy zajistí jeden z partnerů projektu, disponující největším interním archivem nahrávek tohoto druhu v ČR, (3) tvorbou několika softwarů, jmenovitě Automatického detektoru dialektu na základě audionahrávky, Rozpoznávače řeči adaptovaného pro generování dialektologické transkripce z audionahrávek a Multilingválního rozpoznávače západoslovanských jazyků pro generování folklorní transkripce z audionahrávek, (4) tvorbou tří specializovaných Map nářečních diferenčních hláskových jevů s interaktivními a multimediálními prvky, a především (5) tvorbou aplikace Jazyková paměť regionů České republiky. Ta bude otevřená široké veřejnosti pro komunitní doplňování, mapové zobrazování a poslech nářečních nahrávek. Publikační stránka projektu bude reprezentována odbornou knihou a řadou časopiseckých a konferenčních publikací.
Scientific branches
R&D category
AP - Applied research
OECD FORD - main branch
60203 - Linguistics
OECD FORD - secondary branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - another secondary branch
50701 - Cultural and economic geography
CEP - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
AF - Documentation, librarianship, work with information<br>AI - Linguistics<br>BC - Theory and management systems<br>BD - Information theory<br>DE - Earth magnetism, geodesy, geography<br>IN - Informatics
Solution timeline
Realization period - beginning
Mar 1, 2023
Realization period - end
Dec 31, 2027
Project status
B - Running multi-year project
Latest support payment
Mar 16, 2023
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP24-MK0-DH-R
Data delivery date
Feb 19, 2024
Finance
Total approved costs
24,145 thou. CZK
Public financial support
24,145 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK