Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

SEASR-ENG - rozpoznávač řeči pro účely vyhledávání s modely pro angličtinu

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F14%3A43924582" target="_blank" >RIV/49777513:23520/14:43924582 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://www.kky.zcu.cz/cs/sw/SEASR-ENG" target="_blank" >http://www.kky.zcu.cz/cs/sw/SEASR-ENG</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    SEASR-ENG - rozpoznávač řeči pro účely vyhledávání s modely pro angličtinu

  • Popis výsledku v původním jazyce

    Rozpoznávač řeči s modely pro angličtinu pro účely vyhledávání relevantních slov či krátkých frází v archivu přeživších Holocaustu, spravovaném USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/). Standardní systém rozpoznávání řeči sestává z akustického modelu, modulu pro parametrizaci řeči a jazykového modelu. Akustické modely v našem systému jsou založeny na architektuře skrytých Markovových modelů (HMM), která představuje ""lege artis"" přístup v současném rozpoznávání mluvené řeči. Jsou použity standardní třístavové akustické modely s Gaussovskými směsmi. Řeč je parametrizována pomocí 15 PLP koeficientů a jejich delta a delta-delta derivací. Příznaky jsou extrahovány 100x za vteřinu a je aplikována kepstrální normalizace na úrovni řečníka. Systém obsahuje též zobecněný model ticha a při jeho tvorbě byly použity špičkové metody pro adaptivní a diskriminativní trénování. Jednou z klíčových komponent systému pro rozpoznávání spontánních promluv uložených ve zpracovávaném archivu je také modul pro automatickou segmentaci akustického signálu. Nahraný stereo signál totiž teoreticky sice obsahuje řeč moderátora v jednom kanálu a přeživšího v kanálu druhém, ale v praxi dochází k tzv. přeslechům, kdy oba kanály obsahují oba dva zvukové ""proudy"", ale s různou intenzitou. Pro dobré výsledky rozpoznávání je nezbytné správně vybrat ten kanál, kde je signál právě hovořícího řečníka kvalitnější. Byl proto vyvinut modul, který ve vstupním signálu na základě výpočtu krátkodobé energie signálu a k-means shlukovací metody takovéto vhodné úseky označí. V ""produkční"" verzi SEASR-ENG byl použit osvědčený jazykový model založený na lineární interpolaci trigramových pravděpodobností získaných z přepisů části rozhovorů (tyto přepisy byly pořízeny primárně pro účely trénování akustického modelu) - slovník cca 30 tisíc (různých) slov, více než 2 miliony slov v textu a databáze Google N-grams - slovník cca 230 tisíc slov

  • Název v anglickém jazyce

    SEASR-ENG - speech recognizer tailored for subsequent search - English models

  • Popis výsledku anglicky

    This SW module constitutes a crucial part of the search engine used for multi-lingual (Czech and English) search for relevant words or short phrases in the archive of Holocaust survivors, managed by USC (University of Southern California) Shoah Foundation Institute which contains more than 110,000 hours of records in 32 languages. Standard speech recognition system consists of acoustic model, module for parameterization of speech and language model. Acoustic models in our system are based on the Hidden Markov Models (HMM) architecture, which represents the state-of-the-art approach in the current speech recognition. They used a standard tri-state acoustic models with Gaussian mixtures. Speech is parameterized using the PLP coefficients 15 and delta and delta-delta derivatives. Acoustic features are extracted 100 times per second and cepstral normalization is applied at the level of the speaker. The system also includes a generalized model of silence and employ state-of-the-art methods for adaptive discriminative training. One of the key components of the system for recognition of spontaneous speech stored in the archive is also a module for automatic segmentation of the acoustic signal. The recorded stereo signal in theory contains the speech of the moderator in one channel and the speech of the survivor in the second one, but in practice there are often situations when both channels contain both audio "streams", but with varying intensity. We have also developed a module which identifies the "better" channel by using a short-term energy of the signal and the k-means clustering. The SW uses well-tested anguage model based on linear interpolation of trigram probabilities obtained from transcripts of the interviews (these transcripts were acquired primarily for the purpose of the acoustic model training) - a vocabulary of about 30,000 words, more than 2 million tokens in the text and database Google N-grams - a vocabulary of about 230 thousand words

Klasifikace

  • Druh

    R - Software

  • CEP obor

    AJ - Písemnictví, mas–media, audiovize

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/DF12P01OVV022" target="_blank" >DF12P01OVV022: Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2014

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    SEASR-ENG

  • Technické parametry

    Projekt DF12P01OVV022, 1.1:2012 - 31.12.2015. Kontakt : Ing. Pavel IRCING, Ph.D., Fakulta aplikovaných věd, Katedra kybernetiky, Univerzitní 22, Plzeň, tel. 37763 2546, email: ircing@kky.zcu.cz. Akustické modely - 3-stavové HMM, mezislovní trifónové závislosti, kepstrální normalizace, adaptivní a diskriminativní trénink. Extrakce příznaků - 15 PLP + delta + delta-delta. Jazykový model - trigram.

  • Ekonomické parametry

    Výsledek je plánovaným výstupem projektu DF12P01OVV022 "Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)". Slouží k automatickému zpracování audiovizuálního archivu metodami automatického rozpoznávání řeči do formy, která umožňuje rychlé a efektivní vyhledávání zadaných slov či frází.

  • IČO vlastníka výsledku

    49777513

  • Název vlastníka

    Západočeská univerzita v Plzni