SEASR-ENG - speech recognizer tailored for subsequent search - English models
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F14%3A43924582" target="_blank" >RIV/49777513:23520/14:43924582 - isvavai.cz</a>
Result on the web
<a href="http://www.kky.zcu.cz/cs/sw/SEASR-ENG" target="_blank" >http://www.kky.zcu.cz/cs/sw/SEASR-ENG</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
SEASR-ENG - rozpoznávač řeči pro účely vyhledávání s modely pro angličtinu
Original language description
Rozpoznávač řeči s modely pro angličtinu pro účely vyhledávání relevantních slov či krátkých frází v archivu přeživších Holocaustu, spravovaném USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/). Standardní systém rozpoznávání řeči sestává z akustického modelu, modulu pro parametrizaci řeči a jazykového modelu. Akustické modely v našem systému jsou založeny na architektuře skrytých Markovových modelů (HMM), která představuje ""lege artis"" přístup v současném rozpoznávání mluvené řeči. Jsou použity standardní třístavové akustické modely s Gaussovskými směsmi. Řeč je parametrizována pomocí 15 PLP koeficientů a jejich delta a delta-delta derivací. Příznaky jsou extrahovány 100x za vteřinu a je aplikována kepstrální normalizace na úrovni řečníka. Systém obsahuje též zobecněný model ticha a při jeho tvorbě byly použity špičkové metody pro adaptivní a diskriminativní trénování. Jednou z klíčových komponent systému pro rozpoznávání spontánních promluv uložených ve zpracovávaném archivu je také modul pro automatickou segmentaci akustického signálu. Nahraný stereo signál totiž teoreticky sice obsahuje řeč moderátora v jednom kanálu a přeživšího v kanálu druhém, ale v praxi dochází k tzv. přeslechům, kdy oba kanály obsahují oba dva zvukové ""proudy"", ale s různou intenzitou. Pro dobré výsledky rozpoznávání je nezbytné správně vybrat ten kanál, kde je signál právě hovořícího řečníka kvalitnější. Byl proto vyvinut modul, který ve vstupním signálu na základě výpočtu krátkodobé energie signálu a k-means shlukovací metody takovéto vhodné úseky označí. V ""produkční"" verzi SEASR-ENG byl použit osvědčený jazykový model založený na lineární interpolaci trigramových pravděpodobností získaných z přepisů části rozhovorů (tyto přepisy byly pořízeny primárně pro účely trénování akustického modelu) - slovník cca 30 tisíc (různých) slov, více než 2 miliony slov v textu a databáze Google N-grams - slovník cca 230 tisíc slov
Czech name
SEASR-ENG - rozpoznávač řeči pro účely vyhledávání s modely pro angličtinu
Czech description
Rozpoznávač řeči s modely pro angličtinu pro účely vyhledávání relevantních slov či krátkých frází v archivu přeživších Holocaustu, spravovaném USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/). Standardní systém rozpoznávání řeči sestává z akustického modelu, modulu pro parametrizaci řeči a jazykového modelu. Akustické modely v našem systému jsou založeny na architektuře skrytých Markovových modelů (HMM), která představuje ""lege artis"" přístup v současném rozpoznávání mluvené řeči. Jsou použity standardní třístavové akustické modely s Gaussovskými směsmi. Řeč je parametrizována pomocí 15 PLP koeficientů a jejich delta a delta-delta derivací. Příznaky jsou extrahovány 100x za vteřinu a je aplikována kepstrální normalizace na úrovni řečníka. Systém obsahuje též zobecněný model ticha a při jeho tvorbě byly použity špičkové metody pro adaptivní a diskriminativní trénování. Jednou z klíčových komponent systému pro rozpoznávání spontánních promluv uložených ve zpracovávaném archivu je také modul pro automatickou segmentaci akustického signálu. Nahraný stereo signál totiž teoreticky sice obsahuje řeč moderátora v jednom kanálu a přeživšího v kanálu druhém, ale v praxi dochází k tzv. přeslechům, kdy oba kanály obsahují oba dva zvukové ""proudy"", ale s různou intenzitou. Pro dobré výsledky rozpoznávání je nezbytné správně vybrat ten kanál, kde je signál právě hovořícího řečníka kvalitnější. Byl proto vyvinut modul, který ve vstupním signálu na základě výpočtu krátkodobé energie signálu a k-means shlukovací metody takovéto vhodné úseky označí. V ""produkční"" verzi SEASR-ENG byl použit osvědčený jazykový model založený na lineární interpolaci trigramových pravděpodobností získaných z přepisů části rozhovorů (tyto přepisy byly pořízeny primárně pro účely trénování akustického modelu) - slovník cca 30 tisíc (různých) slov, více než 2 miliony slov v textu a databáze Google N-grams - slovník cca 230 tisíc slov
Classification
Type
R - Software
CEP classification
AJ - Literature, mass media, audio-visual activities
OECD FORD branch
—
Result continuities
Project
<a href="/en/project/DF12P01OVV022" target="_blank" >DF12P01OVV022: ASR- and MT-based Access to a Large Archive of Cultural Heritage (AMALACH)</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2014
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Internal product ID
SEASR-ENG
Technical parameters
Projekt DF12P01OVV022, 1.1:2012 - 31.12.2015. Kontakt : Ing. Pavel IRCING, Ph.D., Fakulta aplikovaných věd, Katedra kybernetiky, Univerzitní 22, Plzeň, tel. 37763 2546, email: ircing@kky.zcu.cz. Akustické modely - 3-stavové HMM, mezislovní trifónové závislosti, kepstrální normalizace, adaptivní a diskriminativní trénink. Extrakce příznaků - 15 PLP + delta + delta-delta. Jazykový model - trigram.
Economical parameters
Výsledek je plánovaným výstupem projektu DF12P01OVV022 "Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)". Slouží k automatickému zpracování audiovizuálního archivu metodami automatického rozpoznávání řeči do formy, která umožňuje rychlé a efektivní vyhledávání zadaných slov či frází.
Owner IČO
49777513
Owner name
Západočeská univerzita v Plzni