MCLAAS - integrated search system for multilingual archive
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F14%3A10292718" target="_blank" >RIV/00216208:11320/14:10292718 - isvavai.cz</a>
Alternative codes found
RIV/49777513:23520/14:43927897
Result on the web
<a href="http://ufal.ms.mff.cuni.cz/grants/amalach" target="_blank" >http://ufal.ms.mff.cuni.cz/grants/amalach</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
MCLAAS - integrovaný systém vyhledávání ve vícejazyčném audioarchívu
Original language description
Software slouží pro vícejazyčné (české a anglické) vyhledávání relevantních slov či krátkých frází v archivu přeživších Holocaustu, spravovaném USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/). Tento archiv obsahuje více než 110 tisíc hodin záznamů v 32 jazycích, přičemž přibližně polovina těchto rozhovorů je vedena v angličtině. Pro účely vyhledávání v systému MCLAAS jsou česká a anglická řečová data nejprve zpracována příslušným modulem rozpoznávání řeči (SEASR-CZE - viz http://www.kky.zcu.cz/cs/sw/SEASR-CZE, resp. SEASR-ENG - viz http://www.kky.zcu.cz/cs/sw/SEASR-ENG) a poté je vytvořen tzv. index, což je strojová reprezentace rozpoznaných promluv, která umožňuje co nejrychlejší vyhledání požadovaného slova či fráze. Oba vyhledávací systémy pracují momentálně pouze s indexem založeným na slovní reprezentaci - fonémové vyhledávání bude implementováno později. Každý ze systémů v současnosti hledá výskyty slov či frází zhruba v 1000 hodin videozáznamů. V případě češtiny jde o veškerá dostupná data; v angličtině je k dispozici více než 50 tisíc hodin, ale rozpoznání a zaindexování celého tohoto objemu bude vyžadovat paralelizaci jednotlivých procesů. Pro křížové vyhledávání (dotaz v češtině, data/rozhovory v angličtině a češtině) byl použit systém překladu dotazu. Implementace byla provedena jako zvláštní verze systému MTMonkey (http://ufal.mff.cuni.cz/mtmonkey).
Czech name
MCLAAS - integrovaný systém vyhledávání ve vícejazyčném audioarchívu
Czech description
Software slouží pro vícejazyčné (české a anglické) vyhledávání relevantních slov či krátkých frází v archivu přeživších Holocaustu, spravovaném USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/). Tento archiv obsahuje více než 110 tisíc hodin záznamů v 32 jazycích, přičemž přibližně polovina těchto rozhovorů je vedena v angličtině. Pro účely vyhledávání v systému MCLAAS jsou česká a anglická řečová data nejprve zpracována příslušným modulem rozpoznávání řeči (SEASR-CZE - viz http://www.kky.zcu.cz/cs/sw/SEASR-CZE, resp. SEASR-ENG - viz http://www.kky.zcu.cz/cs/sw/SEASR-ENG) a poté je vytvořen tzv. index, což je strojová reprezentace rozpoznaných promluv, která umožňuje co nejrychlejší vyhledání požadovaného slova či fráze. Oba vyhledávací systémy pracují momentálně pouze s indexem založeným na slovní reprezentaci - fonémové vyhledávání bude implementováno později. Každý ze systémů v současnosti hledá výskyty slov či frází zhruba v 1000 hodin videozáznamů. V případě češtiny jde o veškerá dostupná data; v angličtině je k dispozici více než 50 tisíc hodin, ale rozpoznání a zaindexování celého tohoto objemu bude vyžadovat paralelizaci jednotlivých procesů. Pro křížové vyhledávání (dotaz v češtině, data/rozhovory v angličtině a češtině) byl použit systém překladu dotazu. Implementace byla provedena jako zvláštní verze systému MTMonkey (http://ufal.mff.cuni.cz/mtmonkey).
Classification
Type
R - Software
CEP classification
IN - Informatics
OECD FORD branch
—
Result continuities
Project
<a href="/en/project/DF12P01OVV022" target="_blank" >DF12P01OVV022: ASR- and MT-based Access to a Large Archive of Cultural Heritage (AMALACH)</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2014
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
MCLAAS
Technical parameters
Současná verze prototypu je funkční v CVHM na MFF UK v Praze, a je zde sbírána i zpětná vazba od uživatelů CVHM, kteří jinak mají k dispozici i původní VHA systém dodaný USC. Viz http://ufal.mff.cuni.cz/cvhm/ (je třeba osobní návštěva centra)
Economical parameters
Výsledek je plánovaným výstupem projektu DF12P01OVV022 "Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)". Slouží rychlému a efektivnímu vyhledávání zadaných slov či frází.v rozsáhlém archivu řečových nahrávek, a to v češtině a angličtině.
Owner IČO
49777513
Owner name
Západočeská univerzita v Plzni, Univerzita Karlova v Praze