MCLAAS - integrovaný systém vyhledávání ve vícejazyčném audioarchívu
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F14%3A10292718" target="_blank" >RIV/00216208:11320/14:10292718 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/49777513:23520/14:43927897
Výsledek na webu
<a href="http://ufal.ms.mff.cuni.cz/grants/amalach" target="_blank" >http://ufal.ms.mff.cuni.cz/grants/amalach</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
MCLAAS - integrovaný systém vyhledávání ve vícejazyčném audioarchívu
Popis výsledku v původním jazyce
Software slouží pro vícejazyčné (české a anglické) vyhledávání relevantních slov či krátkých frází v archivu přeživších Holocaustu, spravovaném USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/). Tento archiv obsahuje více než 110 tisíc hodin záznamů v 32 jazycích, přičemž přibližně polovina těchto rozhovorů je vedena v angličtině. Pro účely vyhledávání v systému MCLAAS jsou česká a anglická řečová data nejprve zpracována příslušným modulem rozpoznávání řeči (SEASR-CZE - viz http://www.kky.zcu.cz/cs/sw/SEASR-CZE, resp. SEASR-ENG - viz http://www.kky.zcu.cz/cs/sw/SEASR-ENG) a poté je vytvořen tzv. index, což je strojová reprezentace rozpoznaných promluv, která umožňuje co nejrychlejší vyhledání požadovaného slova či fráze. Oba vyhledávací systémy pracují momentálně pouze s indexem založeným na slovní reprezentaci - fonémové vyhledávání bude implementováno později. Každý ze systémů v současnosti hledá výskyty slov či frází zhruba v 1000 hodin videozáznamů. V případě češtiny jde o veškerá dostupná data; v angličtině je k dispozici více než 50 tisíc hodin, ale rozpoznání a zaindexování celého tohoto objemu bude vyžadovat paralelizaci jednotlivých procesů. Pro křížové vyhledávání (dotaz v češtině, data/rozhovory v angličtině a češtině) byl použit systém překladu dotazu. Implementace byla provedena jako zvláštní verze systému MTMonkey (http://ufal.mff.cuni.cz/mtmonkey).
Název v anglickém jazyce
MCLAAS - integrated search system for multilingual archive
Popis výsledku anglicky
This software is used for multi-lingual (Czech and English) search for relevant words or short phrases in the archive of Holocaust survivors, managed by USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/), which contains more than 110,000 hours of records in 32 languages, with approximately half of these interviews is conducted in English. Czech part of the archive accounts for approximately one thousand hours. For the purposes of searching in the system MCLAAS are Czech and English speech data first processed with the appropriate speech recognition module (SEASR-CZE - see http://www.kky.zcu.cz/en/sw/SEASR-CZE or SEASR-ENG - see http://www.kky.zcu.cz/en/sw/SEASR-ENG) and then a so-called index is created, which is a machine representation of recognized utterances, which speeds up the search for a desired word or phrase. Both retrieval systems currently operate only with an index based on word representation - phonetic search will be implemented later. Each system is currently looking for occurrences of words or phrases in about 1000 hours of video. Those are all data available in the case of Czech; in English there are more than 50,000 hours, but the recognition and indexing of all this volume will require parallelization of individual processes. Cross-searching (query in English, data / interviews in English and Czech) in the system is facilitated by automatic query translation. Implementation was carried out as a special version of MTMonkey (http://ufal.mff.cuni.cz/mtmonkey).
Klasifikace
Druh
R - Software
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/DF12P01OVV022" target="_blank" >DF12P01OVV022: Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2014
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
MCLAAS
Technické parametry
Současná verze prototypu je funkční v CVHM na MFF UK v Praze, a je zde sbírána i zpětná vazba od uživatelů CVHM, kteří jinak mají k dispozici i původní VHA systém dodaný USC. Viz http://ufal.mff.cuni.cz/cvhm/ (je třeba osobní návštěva centra)
Ekonomické parametry
Výsledek je plánovaným výstupem projektu DF12P01OVV022 "Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)". Slouží rychlému a efektivnímu vyhledávání zadaných slov či frází.v rozsáhlém archivu řečových nahrávek, a to v češtině a angličtině.
IČO vlastníka výsledku
49777513
Název vlastníka
Západočeská univerzita v Plzni, Univerzita Karlova v Praze