Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

MCLAAS - integrovaný systém vyhledávání ve vícejazyčném audioarchívu

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F14%3A10292718" target="_blank" >RIV/00216208:11320/14:10292718 - isvavai.cz</a>

  • Nalezeny alternativní kódy

    RIV/49777513:23520/14:43927897

  • Výsledek na webu

    <a href="http://ufal.ms.mff.cuni.cz/grants/amalach" target="_blank" >http://ufal.ms.mff.cuni.cz/grants/amalach</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    MCLAAS - integrovaný systém vyhledávání ve vícejazyčném audioarchívu

  • Popis výsledku v původním jazyce

    Software slouží pro vícejazyčné (české a anglické) vyhledávání relevantních slov či krátkých frází v archivu přeživších Holocaustu, spravovaném USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/). Tento archiv obsahuje více než 110 tisíc hodin záznamů v 32 jazycích, přičemž přibližně polovina těchto rozhovorů je vedena v angličtině. Pro účely vyhledávání v systému MCLAAS jsou česká a anglická řečová data nejprve zpracována příslušným modulem rozpoznávání řeči (SEASR-CZE - viz http://www.kky.zcu.cz/cs/sw/SEASR-CZE, resp. SEASR-ENG - viz http://www.kky.zcu.cz/cs/sw/SEASR-ENG) a poté je vytvořen tzv. index, což je strojová reprezentace rozpoznaných promluv, která umožňuje co nejrychlejší vyhledání požadovaného slova či fráze. Oba vyhledávací systémy pracují momentálně pouze s indexem založeným na slovní reprezentaci - fonémové vyhledávání bude implementováno později. Každý ze systémů v současnosti hledá výskyty slov či frází zhruba v 1000 hodin videozáznamů. V případě češtiny jde o veškerá dostupná data; v angličtině je k dispozici více než 50 tisíc hodin, ale rozpoznání a zaindexování celého tohoto objemu bude vyžadovat paralelizaci jednotlivých procesů. Pro křížové vyhledávání (dotaz v češtině, data/rozhovory v angličtině a češtině) byl použit systém překladu dotazu. Implementace byla provedena jako zvláštní verze systému MTMonkey (http://ufal.mff.cuni.cz/mtmonkey).

  • Název v anglickém jazyce

    MCLAAS - integrated search system for multilingual archive

  • Popis výsledku anglicky

    This software is used for multi-lingual (Czech and English) search for relevant words or short phrases in the archive of Holocaust survivors, managed by USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/), which contains more than 110,000 hours of records in 32 languages, with approximately half of these interviews is conducted in English. Czech part of the archive accounts for approximately one thousand hours. For the purposes of searching in the system MCLAAS are Czech and English speech data first processed with the appropriate speech recognition module (SEASR-CZE - see http://www.kky.zcu.cz/en/sw/SEASR-CZE or SEASR-ENG - see http://www.kky.zcu.cz/en/sw/SEASR-ENG) and then a so-called index is created, which is a machine representation of recognized utterances, which speeds up the search for a desired word or phrase. Both retrieval systems currently operate only with an index based on word representation - phonetic search will be implemented later. Each system is currently looking for occurrences of words or phrases in about 1000 hours of video. Those are all data available in the case of Czech; in English there are more than 50,000 hours, but the recognition and indexing of all this volume will require parallelization of individual processes. Cross-searching (query in English, data / interviews in English and Czech) in the system is facilitated by automatic query translation. Implementation was carried out as a special version of MTMonkey (http://ufal.mff.cuni.cz/mtmonkey).

Klasifikace

  • Druh

    R - Software

  • CEP obor

    IN - Informatika

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/DF12P01OVV022" target="_blank" >DF12P01OVV022: Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2014

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    MCLAAS

  • Technické parametry

    Současná verze prototypu je funkční v CVHM na MFF UK v Praze, a je zde sbírána i zpětná vazba od uživatelů CVHM, kteří jinak mají k dispozici i původní VHA systém dodaný USC. Viz http://ufal.mff.cuni.cz/cvhm/ (je třeba osobní návštěva centra)

  • Ekonomické parametry

    Výsledek je plánovaným výstupem projektu DF12P01OVV022 "Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)". Slouží rychlému a efektivnímu vyhledávání zadaných slov či frází.v rozsáhlém archivu řečových nahrávek, a to v češtině a angličtině.

  • IČO vlastníka výsledku

    49777513

  • Název vlastníka

    Západočeská univerzita v Plzni, Univerzita Karlova v Praze