SEASR-CZE - rozpoznávač řeči pro účely vyhledávání s modely pro češtinu

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F12%3A43917996" target="_blank" >RIV/49777513:23520/12:43917996 - isvavai.cz</a>
Výsledek na webu
<a href="http://www.kky.zcu.cz/cs/sw/SEASR-CZE" target="_blank" >http://www.kky.zcu.cz/cs/sw/SEASR-CZE</a>
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
čeština
Název v původním jazyce
SEASR-CZE - rozpoznávač řeči pro účely vyhledávání s modely pro češtinu
Popis výsledku v původním jazyce
Standardní systém rozpoznávání řeči sestává z akustického modelu, modulu pro parametrizaci řeči a jazykového modelu. Akustické modely v našem systému jsou založeny na architektuře skrytých Markovových modelů (HMM), která představuje "lege artis" přístupv současném rozpoznávání mluvené řeči. Jsou použity standardní třístavové akustické modely s Gaussovskými směsmi. Model bere v úvahu trifónové závislosti včetně mezislovních. Řeč je parametrizována pomocí 15 PLP koeficientů a jejich delta a delta-delta derivací (tj. vektor příznaků má dimenzi 45). Příznaky jsou extrahovány 100x za vteřinu a je aplikována kepstrální normalizace na úrovni řečníka. Systém obsahuje též zobecněný model ticha a při jeho tvorbě byly použity špičkové metody pro adaptivní a diskriminativní trénování. Pokud se týká jazykového modelu, systém obsahuje dva základní modely - oba trigramové. První z nich je natrénován pouze z pomocí přepisů z "mateřské" domény, zatímco druhý využívá jako trénovací data texty z rozsáhl
Název v anglickém jazyce
SEASR-CZE - speech recognizer for search purposes with models for the Czech language
Popis výsledku anglicky
The standard ASR system consists of acoustic model, speech parameterization module and language model. The acoustic models in our system are based on the state-of-the-art hidden Markov models (HMM) architecture. Standard 3-state left-to-right models witha mixture of multiple Gaussians in each state are used. Triphone dependencies (including the cross-word ones) are taken into account. The speech data were parameterized as 15-dimensional PLP cepstral features including their delta and delta-delta derivatives (resulting into 45-dimensional feature vectors). These features were computed at the rate of 100 frames per second. Cepstral mean subtraction was applied per speaker. As was already mentioned, non-speech events appearing in spontaneous speech of survivors were also annotated. We used these annotated events to train a generalized model of silence. The state-of-the-art speaker adaptive training and discriminative training algorithms were employed to further improve the quality of the

Klasifikace

Druh
R - Software
CEP obor
AJ - Písemnictví, mas–media, audiovize
OECD FORD obor
—

Návaznosti výsledku

Projekt
<a href="/cs/project/DF12P01OVV022" target="_blank" >DF12P01OVV022: Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

Rok uplatnění
2012
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Interní identifikační kód produktu
SEASR_CZE
Technické parametry
Akustické modely - 3-stavové HMM, mezislovní trifónové závislosti, kepstrální normalizace, adaptivní a diskriminativní trénink. Extrakce příznaků - 15 PLP + delta + delta-delta. Jazykový model - trigram. Dekodér - dvouprůchodový, generování slovních a fonémových mřížek.
Ekonomické parametry
Výsledek je plánovaným výstupem projektu DF12P01OVV022 "Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)". Slouží k automatickému zpracování audiovizuálního archivu metodami automatického rozpoznávání řeči do formy, která umožňuje rychlé a efektivní vyhledávání zadaných slov či frází.
IČO vlastníka výsledku
49777513
Název vlastníka
Západočeská univerzita v Plzni

Podobné výsledky(10)

SEASR-ENG - rozpoznávač řeči pro účely vyhledávání s modely pro angličtinu Comparison of MFCC and PLP parameterizations in the speaker independent continuous speech recognition task Neural-Network-based Spectrum Processing for Speech Recognition and Speaker Verification

Co hledáte?

Rychlé hledání

Chytré vyhledávání

SEASR-CZE - rozpoznávač řeči pro účely vyhledávání s modely pro češtinu

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)