ASR- and MT-based Access to a Large Archive of Cultural Heritage (AMALACH)
Public support
Provider
Ministry of Culture
Programme
Applied research and development of national and cultural identity Programme? (in short, ?NAKI?)
Call for proposals
NAKI 2 (SMK02012DF001)
Main participants
Univerzita Karlova / Matematicko-fyzikální fakulta<br>Západočeská univerzita v Plzni / Fakulta aplikovaných věd
Contest type
VS - Public tender
Contract ID
22/2012/OVV
Alternative language
Project name in Czech
Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)
Annotation in Czech
Hlavním cílem navrhovaného projektu je výzkum a vývoj softwarových nástrojů pro zpřístupnění rozsáhlého videoarchivu obsahujícího svědectví lidí, kteří přežili holokaust. Tento archiv, vytvořený v 90. letech 20. století a spravovaný v současné době USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi), obsahuje více než 110 tisíc hodin záznamů v 32 jazycích, přičemž přibližně polovina těchto rozhovorů je vedena v angličtině. Česká část archivu obnáší zhruba jeden tisíc hodin. Orientace v archivu bez použití dobře fungujícího vyhledávacího softwaru je tudíž velmi obtížná. V současné době je možno v archivu, který je v Česku přístupný zatím na MFF UK v Praze, vyhledávat pomocí klíčových slov vybíraných ze speciálního slovníku (tezauru), která byla manuálně přiřazena jednotlivým pasážím. Pokrytí archivu těmito klíčovými slovy je ovšem nedostatečné, především v případě českých výpovědí. Naším cílem je proto využít pokročilé metody rozpoznávání souvislé řeči, automatického vyhledávání informací a strojového překladu k tomu, abychom vyvinuli efektivně fungující systém schopný rychle a kvalitně (tj. přesně) vyhledávat zadané dotazy (přinejmenším) v česky a anglicky mluvených výpovědích zmíněného archivu. Podle konkrétního postupu a kapacit projektu bude případně možno začlenit v omezeném rozsahu i slovenštinu, ve které je nahráno dalších cca 1000h výpovědí. Začlenění angličtiny (a slovenštiny) jako dalších jazyků není samoúčelné: lidí, kteří v osudné době žili v Česku (Československu), ale výpověď uloženou v archívu poskytli v angličtině (např. z důvodu dlouhého poválečného pobytu v cizině), jsou další téměř čtyři tisíce. O osudech přeživších z Česka (Československa) navíc mluví i řada dalších přeživších (archívobsahuje celkem 12 tisíc výpovědí, kde se mluví v nějaké formě o bývalém Československu).
Scientific branches
R&D category
AP - Applied research
CEP classification - main branch
AJ - Literature, mass media, audio-visual activities
CEP - secondary branch
AI - Linguistics
CEP - another secondary branch
IN - Informatics
OECD FORD - equivalent branches <br>(according to the <a href="http://www.vyzkum.cz/storage/att/E6EF7938F0E854BAE520AC119FB22E8D/Prevodnik_oboru_Frascati.pdf">converter</a>)
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)<br>50801 - Journalism<br>50802 - Media and socio-cultural communication<br>60201 - General language studies<br>60202 - Specific languages<br>60203 - Linguistics<br>60204 - General literature studies<br>60205 - Literary theory<br>60206 - Specific literatures
Completed project evaluation
Provider evaluation
U - Uspěl podle zadání (s publikovanými či patentovanými výsledky atd.)
Project results evaluation
The project reached the main goals and sub-goals and fulfilled the assignment. In the periodic reports on projects, it was rated positively by the Council of Minister of Culture for Research.
Solution timeline
Realization period - beginning
Mar 1, 2012
Realization period - end
Dec 31, 2015
Project status
U - Finished project
Latest support payment
Mar 26, 2015
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP16-MK0-DF-U/02:1
Data delivery date
Dec 14, 2016
Finance
Total approved costs
19,152 thou. CZK
Public financial support
19,000 thou. CZK
Other public sources
0 thou. CZK
Non public and foreign sources
0 thou. CZK