Technologie pro rychlé foneticko-lexikální vyhledávání v rozsáhlém audiovizuálním archivu výpovědí českých svědků holocaustu.
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F10%3A00504522" target="_blank" >RIV/49777513:23520/10:00504522 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Technologie pro rychlé foneticko-lexikální vyhledávání v rozsáhlém audiovizuálním archivu výpovědí českých svědků holocaustu.
Popis výsledku v původním jazyce
Vyvinutá technologie v režimu poloprovozu slouží k on-line vyhledávání informací v rozsáhlém audiovizuálním archivu česky namluvených výpovědí svědků holocaustu. Archiv byl pořízen americkou Shoah Visual History Foundation a z celkového počtu cca 52 tisíc výpovědí zaznamenaných formou video interview ve 32 jazycích je v tomto archivu uloženo 573 výpovědí vedených v mluvené češtině. Při průměrné délce jedné svědecké výpovědi delší než 2 hodiny tak česká část archívu obsahuje více než 1000 hodin audiovizuálního záznamu. Technologie vyhledávání informací je založena na využití metod automatickém rozpoznávání souvislé řeči. Složitost řešení byla ovlivněna tím, že výpovědi byly poskytovány skupinou starších lidí (průměrný věk 75 let), kteří obvykle nebyli cvičeni v hlasovém projevu a jejich řeč byla velmi často po navození vzpomínek ovlivněna vypjatým emočním stavem. Práce na této technologii měly několik etap, od sběru a zpracování dat, po konstrukci systému automatického rozpoznávání spon
Název v anglickém jazyce
Shoah-video archives of spontaneously pronounced testimonies of holocaust survivors ? online access with phonetic/lexical search for words and phrases
Popis výsledku anglicky
The developed technology serves for on-line information retrieval from very large audiovisual archives of testimonies pronounced by holocaust survivors in Czech language. The archives was built by the Visual History Foundation in U.S.A. and from about 52thousand testimonies pronounced in 32 languages it contains 573 witnesses yielded by Czech survivors. Considering one testimony of average length of two hours the Czech part of the archives contains more than 1 thousand hours of audiovisual records. Technology of information retrieval is based on an automatic large vocabulary continuous speech recognition approach. A complexity of solution was influenced by a ?quality? of speech of speakers who were old holocaust survivors (people aged 75 in average) inexperienced in spoken exhibition and emotionally excited during their interview. The work on this technology had several phase started by data acquisition, acoustic and language modeling, audio stream indexing in phonetic/lexical mode, a
Klasifikace
Druh
Z<sub>polop</sub> - Poloprovoz
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/1QS101470516" target="_blank" >1QS101470516: Automatické vyhledávání klíčových slov v proudu zvukových dat</a><br>
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2010
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
Shoah-cs
Číselná identifikace
—
Technické parametry
Poloprovoz je testován SpeechTech s.r.o., Hodonínská 61, Plzeň, IČ 25247930, info ing. J. Zahradil (jiri.zahradil@speechtech.cz). Pro získání licence je nutný souhlas Shoah VHF k využití dat, viz http://www.kky.zcu.cz/cs/sw/shoah-archive
Ekonomické parametry
Poloprovoz umožňuje extrémně rychlé vyhledávání frází (i mimo slovník) v rozsáhlém audiovizuálním archivu výpovědí čs. svědků holocaustu, jde o špičku současného state-of-the-art. Po ukončení testování a získání souhlasu s využitím dat licenční cena 0 Kč
Kategorie aplik. výsledku dle nákladů
—
IČO vlastníka výsledku
49777513
Název vlastníka
Západočeská univerzita v Plzni
Stát vlastníka
CZ - Česká republika
Druh možnosti využití
A - K využití výsledku jiným subjektem je vždy nutné nabytí licence
Požadavek na licenční poplatek
N - Poskytovatel licence na výsledek nepožaduje licenční poplatek
Adresa www stránky s výsledkem
—