SEASR-ENG - rozpoznávač řeči pro účely vyhledávání s modely pro angličtinu
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F14%3A43924582" target="_blank" >RIV/49777513:23520/14:43924582 - isvavai.cz</a>
Výsledek na webu
<a href="http://www.kky.zcu.cz/cs/sw/SEASR-ENG" target="_blank" >http://www.kky.zcu.cz/cs/sw/SEASR-ENG</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
SEASR-ENG - rozpoznávač řeči pro účely vyhledávání s modely pro angličtinu
Popis výsledku v původním jazyce
Rozpoznávač řeči s modely pro angličtinu pro účely vyhledávání relevantních slov či krátkých frází v archivu přeživších Holocaustu, spravovaném USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/). Standardní systém rozpoznávání řeči sestává z akustického modelu, modulu pro parametrizaci řeči a jazykového modelu. Akustické modely v našem systému jsou založeny na architektuře skrytých Markovových modelů (HMM), která představuje ""lege artis"" přístup v současném rozpoznávání mluvené řeči. Jsou použity standardní třístavové akustické modely s Gaussovskými směsmi. Řeč je parametrizována pomocí 15 PLP koeficientů a jejich delta a delta-delta derivací. Příznaky jsou extrahovány 100x za vteřinu a je aplikována kepstrální normalizace na úrovni řečníka. Systém obsahuje též zobecněný model ticha a při jeho tvorbě byly použity špičkové metody pro adaptivní a diskriminativní trénování. Jednou z klíčových komponent systému pro rozpoznávání spontánních promluv uložených ve zpracovávaném archivu je také modul pro automatickou segmentaci akustického signálu. Nahraný stereo signál totiž teoreticky sice obsahuje řeč moderátora v jednom kanálu a přeživšího v kanálu druhém, ale v praxi dochází k tzv. přeslechům, kdy oba kanály obsahují oba dva zvukové ""proudy"", ale s různou intenzitou. Pro dobré výsledky rozpoznávání je nezbytné správně vybrat ten kanál, kde je signál právě hovořícího řečníka kvalitnější. Byl proto vyvinut modul, který ve vstupním signálu na základě výpočtu krátkodobé energie signálu a k-means shlukovací metody takovéto vhodné úseky označí. V ""produkční"" verzi SEASR-ENG byl použit osvědčený jazykový model založený na lineární interpolaci trigramových pravděpodobností získaných z přepisů části rozhovorů (tyto přepisy byly pořízeny primárně pro účely trénování akustického modelu) - slovník cca 30 tisíc (různých) slov, více než 2 miliony slov v textu a databáze Google N-grams - slovník cca 230 tisíc slov
Název v anglickém jazyce
SEASR-ENG - speech recognizer tailored for subsequent search - English models
Popis výsledku anglicky
This SW module constitutes a crucial part of the search engine used for multi-lingual (Czech and English) search for relevant words or short phrases in the archive of Holocaust survivors, managed by USC (University of Southern California) Shoah Foundation Institute which contains more than 110,000 hours of records in 32 languages. Standard speech recognition system consists of acoustic model, module for parameterization of speech and language model. Acoustic models in our system are based on the Hidden Markov Models (HMM) architecture, which represents the state-of-the-art approach in the current speech recognition. They used a standard tri-state acoustic models with Gaussian mixtures. Speech is parameterized using the PLP coefficients 15 and delta and delta-delta derivatives. Acoustic features are extracted 100 times per second and cepstral normalization is applied at the level of the speaker. The system also includes a generalized model of silence and employ state-of-the-art methods for adaptive discriminative training. One of the key components of the system for recognition of spontaneous speech stored in the archive is also a module for automatic segmentation of the acoustic signal. The recorded stereo signal in theory contains the speech of the moderator in one channel and the speech of the survivor in the second one, but in practice there are often situations when both channels contain both audio "streams", but with varying intensity. We have also developed a module which identifies the "better" channel by using a short-term energy of the signal and the k-means clustering. The SW uses well-tested anguage model based on linear interpolation of trigram probabilities obtained from transcripts of the interviews (these transcripts were acquired primarily for the purpose of the acoustic model training) - a vocabulary of about 30,000 words, more than 2 million tokens in the text and database Google N-grams - a vocabulary of about 230 thousand words
Klasifikace
Druh
R - Software
CEP obor
AJ - Písemnictví, mas–media, audiovize
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/DF12P01OVV022" target="_blank" >DF12P01OVV022: Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2014
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
SEASR-ENG
Technické parametry
Projekt DF12P01OVV022, 1.1:2012 - 31.12.2015. Kontakt : Ing. Pavel IRCING, Ph.D., Fakulta aplikovaných věd, Katedra kybernetiky, Univerzitní 22, Plzeň, tel. 37763 2546, email: ircing@kky.zcu.cz. Akustické modely - 3-stavové HMM, mezislovní trifónové závislosti, kepstrální normalizace, adaptivní a diskriminativní trénink. Extrakce příznaků - 15 PLP + delta + delta-delta. Jazykový model - trigram.
Ekonomické parametry
Výsledek je plánovaným výstupem projektu DF12P01OVV022 "Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)". Slouží k automatickému zpracování audiovizuálního archivu metodami automatického rozpoznávání řeči do formy, která umožňuje rychlé a efektivní vyhledávání zadaných slov či frází.
IČO vlastníka výsledku
49777513
Název vlastníka
Západočeská univerzita v Plzni