MCLAAS - integrated search system for multilingual archive of testimonies of the Holocaust witnesses
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F15%3A10318422" target="_blank" >RIV/00216208:11320/15:10318422 - isvavai.cz</a>
Alternative codes found
RIV/49777513:23520/15:43927912
Result on the web
<a href="http://ufal.mff.cuni.cz/grants/amalach" target="_blank" >http://ufal.mff.cuni.cz/grants/amalach</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
MCLAAS - integrovaný systém vyhledávání ve vícejazyčném audioarchívu výpovědí svědků holocaustu
Original language description
Tento funkční vzorek slouží pro vícejazyčné (české a anglické) vyhledávání relevantních slov či krátkých frází v archivu přeživších Holocaustu, spravovaném USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/). Tento archiv obsahuje více než 110 tisíc hodin záznamů v 32 jazycích, přičemž přibližně polovina těchto rozhovorů je vedena v angličtině. Česká část archivu obnáší zhruba jeden tisíc hodin. Funkční vzorek se skládá ze serverového počítače, softwarových modulů MCLASS (http://www.kky.zcu.cz/cs/sw/MCLAAS), WFBAS (http://www.kky.zcu.cz/cs/sw/WFBAS), pracovní databáze sestavené softwary SEASR-CZE (http://www.kky.zcu.cz/cs/sw/SEASR-CZE) a SEASR-ENG (http://www.kky.zcu.cz/cs/sw/SEASR-ENG) a tenkého klienta s obvyklým webovým prohlížečem. Serverový počítač je počítač s konfigurací odpovídající náročnosti vykonávané úlohy s připojením k internetu. Počítač použitý pro funkční vzorek má 2 procesory Intel(R) Xeon(R) CPU E5-2620 v2 @ 2.10GHz. Pro účely vyhledávání v systému jsou česká a anglická řečová data nejprve zpracována příslušným modulem rozpoznávání řeči (SEASR-CZE, resp. SEASR-ENG).. Každý ze systémů v současnosti hledá výskyty slov či frází zhruba v 1000 hodin videozáznamů. V případě češtiny jde o veškerá dostupná data; v angličtině je k dispozici více než 50 tisíc hodin, ale rozpoznání a zaindexování celého tohoto objemu bude vyžadovat paralelizaci jednotlivých procesů. Pro křížové vyhledávání (dotaz v češtině, data/rozhovory v angličtině a češtině) v softwaru byl použit systém překladu dotazu. Implementace byla provedena jako zvláštní verze systému MTMonkey (http://ufal.mff.cuni.cz/mtmonkey)
Czech name
MCLAAS - integrovaný systém vyhledávání ve vícejazyčném audioarchívu výpovědí svědků holocaustu
Czech description
Tento funkční vzorek slouží pro vícejazyčné (české a anglické) vyhledávání relevantních slov či krátkých frází v archivu přeživších Holocaustu, spravovaném USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/). Tento archiv obsahuje více než 110 tisíc hodin záznamů v 32 jazycích, přičemž přibližně polovina těchto rozhovorů je vedena v angličtině. Česká část archivu obnáší zhruba jeden tisíc hodin. Funkční vzorek se skládá ze serverového počítače, softwarových modulů MCLASS (http://www.kky.zcu.cz/cs/sw/MCLAAS), WFBAS (http://www.kky.zcu.cz/cs/sw/WFBAS), pracovní databáze sestavené softwary SEASR-CZE (http://www.kky.zcu.cz/cs/sw/SEASR-CZE) a SEASR-ENG (http://www.kky.zcu.cz/cs/sw/SEASR-ENG) a tenkého klienta s obvyklým webovým prohlížečem. Serverový počítač je počítač s konfigurací odpovídající náročnosti vykonávané úlohy s připojením k internetu. Počítač použitý pro funkční vzorek má 2 procesory Intel(R) Xeon(R) CPU E5-2620 v2 @ 2.10GHz. Pro účely vyhledávání v systému jsou česká a anglická řečová data nejprve zpracována příslušným modulem rozpoznávání řeči (SEASR-CZE, resp. SEASR-ENG).. Každý ze systémů v současnosti hledá výskyty slov či frází zhruba v 1000 hodin videozáznamů. V případě češtiny jde o veškerá dostupná data; v angličtině je k dispozici více než 50 tisíc hodin, ale rozpoznání a zaindexování celého tohoto objemu bude vyžadovat paralelizaci jednotlivých procesů. Pro křížové vyhledávání (dotaz v češtině, data/rozhovory v angličtině a češtině) v softwaru byl použit systém překladu dotazu. Implementace byla provedena jako zvláštní verze systému MTMonkey (http://ufal.mff.cuni.cz/mtmonkey)
Classification
Type
G<sub>funk</sub> - Functional sample
CEP classification
IN - Informatics
OECD FORD branch
—
Result continuities
Project
<a href="/en/project/DF12P01OVV022" target="_blank" >DF12P01OVV022: ASR- and MT-based Access to a Large Archive of Cultural Heritage (AMALACH)</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2015
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
MCLAAS-G
Numerical identification
—
Technical parameters
Židovské muzeum Praha, U Staré školy 1, Praha, 11000, IČ 60459263, tel. 222-749-211, Viktor Vrbický, viktor.vrbicky@jewishmuseum.cz, 21.7.2015 (dodatek).
Economical parameters
Výsledky vznikly jako součást řešení projektu Ministerstva kultury číslo DF12P01OVV022 a podléhají licenčním podmínkám daného typu projektu. Licence je všem zájemcům poskytována zdarma, avšak nezbytnou podmínkou pro využívání tohoto výsledku je, aby měl uživatel ošetřeno právo přístupu k nahrávkám, nad kterými se vyhledávání provádí, pokud tento požadavek je dle licence na jednotlivé části systému jejich licencí vyžadován. Veškerá práva k těmto nahrávkám jsou majetkem USC Shoah Foundation. Další informace lze získat na vyžádání na riv@control.zcu.cz.
Application category by cost
—
Owner IČO
00216208
Owner name
Západočeská univerzita v Plzni, Univerzita Karlova v Praze
Owner country
CZ - CZECH REPUBLIC
Usage type
A - K využití výsledku jiným subjektem je vždy nutné nabytí licence
Licence fee requirement
N - Poskytovatel licence na výsledek nepožaduje licenční poplatek
Web page
http://ufal.mff.cuni.cz/grants/amalach