Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

MCLAAS - integrovaný systém vyhledávání ve vícejazyčném audioarchívu výpovědí svědků holocaustu

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F15%3A10318422" target="_blank" >RIV/00216208:11320/15:10318422 - isvavai.cz</a>

  • Nalezeny alternativní kódy

    RIV/49777513:23520/15:43927912

  • Výsledek na webu

    <a href="http://ufal.mff.cuni.cz/grants/amalach" target="_blank" >http://ufal.mff.cuni.cz/grants/amalach</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    MCLAAS - integrovaný systém vyhledávání ve vícejazyčném audioarchívu výpovědí svědků holocaustu

  • Popis výsledku v původním jazyce

    Tento funkční vzorek slouží pro vícejazyčné (české a anglické) vyhledávání relevantních slov či krátkých frází v archivu přeživších Holocaustu, spravovaném USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/). Tento archiv obsahuje více než 110 tisíc hodin záznamů v 32 jazycích, přičemž přibližně polovina těchto rozhovorů je vedena v angličtině. Česká část archivu obnáší zhruba jeden tisíc hodin. Funkční vzorek se skládá ze serverového počítače, softwarových modulů MCLASS (http://www.kky.zcu.cz/cs/sw/MCLAAS), WFBAS (http://www.kky.zcu.cz/cs/sw/WFBAS), pracovní databáze sestavené softwary SEASR-CZE (http://www.kky.zcu.cz/cs/sw/SEASR-CZE) a SEASR-ENG (http://www.kky.zcu.cz/cs/sw/SEASR-ENG) a tenkého klienta s obvyklým webovým prohlížečem. Serverový počítač je počítač s konfigurací odpovídající náročnosti vykonávané úlohy s připojením k internetu. Počítač použitý pro funkční vzorek má 2 procesory Intel(R) Xeon(R) CPU E5-2620 v2 @ 2.10GHz. Pro účely vyhledávání v systému jsou česká a anglická řečová data nejprve zpracována příslušným modulem rozpoznávání řeči (SEASR-CZE, resp. SEASR-ENG).. Každý ze systémů v současnosti hledá výskyty slov či frází zhruba v 1000 hodin videozáznamů. V případě češtiny jde o veškerá dostupná data; v angličtině je k dispozici více než 50 tisíc hodin, ale rozpoznání a zaindexování celého tohoto objemu bude vyžadovat paralelizaci jednotlivých procesů. Pro křížové vyhledávání (dotaz v češtině, data/rozhovory v angličtině a češtině) v softwaru byl použit systém překladu dotazu. Implementace byla provedena jako zvláštní verze systému MTMonkey (http://ufal.mff.cuni.cz/mtmonkey)

  • Název v anglickém jazyce

    MCLAAS - integrated search system for multilingual archive of testimonies of the Holocaust witnesses

  • Popis výsledku anglicky

    This functional prototype is used for multi-lingual (Czech and English) search for relevant words or short phrases in the archive of Holocaust survivors, managed by USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/), which contains more than 110,000 hours of records in 32 languages, with approximately half of these interviews is conducted in English. Czech part of the archive accounts for approximately one thousand hours. For the purposes of searching in the system MCLAAS are Czech and English speech data first processed with the appropriate speech recognition module (SEASR-CZE - see http://www.kky.zcu.cz/en/sw/SEASR-CZE or SEASR-ENG - see http://www.kky.zcu.cz/en/sw/SEASR-ENG) and then a so-called index is created, which is a machine representation of recognized utterances, which speeds up the search for a desired word or phrase. Those are all data available in the case of Czech; in English there are more than 50,000 hours, but the recognition and indexing of all this volume will require parallelization of individual processes. Cross-searching (query in English, data / interviews in English and Czech) in the system is facilitated by automatic query translation. Implementation was carried out as a special version of MTMonkey (http://ufal.mff.cuni.cz/mtmonkey).

Klasifikace

  • Druh

    G<sub>funk</sub> - Funkční vzorek

  • CEP obor

    IN - Informatika

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/DF12P01OVV022" target="_blank" >DF12P01OVV022: Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2015

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    MCLAAS-G

  • Číselná identifikace

  • Technické parametry

    Židovské muzeum Praha, U Staré školy 1, Praha, 11000, IČ 60459263, tel. 222-749-211, Viktor Vrbický, viktor.vrbicky@jewishmuseum.cz, 21.7.2015 (dodatek).

  • Ekonomické parametry

    Výsledky vznikly jako součást řešení projektu Ministerstva kultury číslo DF12P01OVV022 a podléhají licenčním podmínkám daného typu projektu. Licence je všem zájemcům poskytována zdarma, avšak nezbytnou podmínkou pro využívání tohoto výsledku je, aby měl uživatel ošetřeno právo přístupu k nahrávkám, nad kterými se vyhledávání provádí, pokud tento požadavek je dle licence na jednotlivé části systému jejich licencí vyžadován. Veškerá práva k těmto nahrávkám jsou majetkem USC Shoah Foundation. Další informace lze získat na vyžádání na riv@control.zcu.cz.

  • Kategorie aplik. výsledku dle nákladů

  • IČO vlastníka výsledku

    00216208

  • Název vlastníka

    Západočeská univerzita v Plzni, Univerzita Karlova v Praze

  • Stát vlastníka

    CZ - Česká republika

  • Druh možnosti využití

    A - K využití výsledku jiným subjektem je vždy nutné nabytí licence

  • Požadavek na licenční poplatek

    N - Poskytovatel licence na výsledek nepožaduje licenční poplatek

  • Adresa www stránky s výsledkem

    http://ufal.mff.cuni.cz/grants/amalach