All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

SEASR-ENG - speech recognizer tailored for subsequent search - English models

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F14%3A43924582" target="_blank" >RIV/49777513:23520/14:43924582 - isvavai.cz</a>

  • Result on the web

    <a href="http://www.kky.zcu.cz/cs/sw/SEASR-ENG" target="_blank" >http://www.kky.zcu.cz/cs/sw/SEASR-ENG</a>

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    SEASR-ENG - rozpoznávač řeči pro účely vyhledávání s modely pro angličtinu

  • Original language description

    Rozpoznávač řeči s modely pro angličtinu pro účely vyhledávání relevantních slov či krátkých frází v archivu přeživších Holocaustu, spravovaném USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/). Standardní systém rozpoznávání řeči sestává z akustického modelu, modulu pro parametrizaci řeči a jazykového modelu. Akustické modely v našem systému jsou založeny na architektuře skrytých Markovových modelů (HMM), která představuje ""lege artis"" přístup v současném rozpoznávání mluvené řeči. Jsou použity standardní třístavové akustické modely s Gaussovskými směsmi. Řeč je parametrizována pomocí 15 PLP koeficientů a jejich delta a delta-delta derivací. Příznaky jsou extrahovány 100x za vteřinu a je aplikována kepstrální normalizace na úrovni řečníka. Systém obsahuje též zobecněný model ticha a při jeho tvorbě byly použity špičkové metody pro adaptivní a diskriminativní trénování. Jednou z klíčových komponent systému pro rozpoznávání spontánních promluv uložených ve zpracovávaném archivu je také modul pro automatickou segmentaci akustického signálu. Nahraný stereo signál totiž teoreticky sice obsahuje řeč moderátora v jednom kanálu a přeživšího v kanálu druhém, ale v praxi dochází k tzv. přeslechům, kdy oba kanály obsahují oba dva zvukové ""proudy"", ale s různou intenzitou. Pro dobré výsledky rozpoznávání je nezbytné správně vybrat ten kanál, kde je signál právě hovořícího řečníka kvalitnější. Byl proto vyvinut modul, který ve vstupním signálu na základě výpočtu krátkodobé energie signálu a k-means shlukovací metody takovéto vhodné úseky označí. V ""produkční"" verzi SEASR-ENG byl použit osvědčený jazykový model založený na lineární interpolaci trigramových pravděpodobností získaných z přepisů části rozhovorů (tyto přepisy byly pořízeny primárně pro účely trénování akustického modelu) - slovník cca 30 tisíc (různých) slov, více než 2 miliony slov v textu a databáze Google N-grams - slovník cca 230 tisíc slov

  • Czech name

    SEASR-ENG - rozpoznávač řeči pro účely vyhledávání s modely pro angličtinu

  • Czech description

    Rozpoznávač řeči s modely pro angličtinu pro účely vyhledávání relevantních slov či krátkých frází v archivu přeživších Holocaustu, spravovaném USC (University of Southern California) Shoah Foundation Institute (http://dornsife.usc.edu/vhi/). Standardní systém rozpoznávání řeči sestává z akustického modelu, modulu pro parametrizaci řeči a jazykového modelu. Akustické modely v našem systému jsou založeny na architektuře skrytých Markovových modelů (HMM), která představuje ""lege artis"" přístup v současném rozpoznávání mluvené řeči. Jsou použity standardní třístavové akustické modely s Gaussovskými směsmi. Řeč je parametrizována pomocí 15 PLP koeficientů a jejich delta a delta-delta derivací. Příznaky jsou extrahovány 100x za vteřinu a je aplikována kepstrální normalizace na úrovni řečníka. Systém obsahuje též zobecněný model ticha a při jeho tvorbě byly použity špičkové metody pro adaptivní a diskriminativní trénování. Jednou z klíčových komponent systému pro rozpoznávání spontánních promluv uložených ve zpracovávaném archivu je také modul pro automatickou segmentaci akustického signálu. Nahraný stereo signál totiž teoreticky sice obsahuje řeč moderátora v jednom kanálu a přeživšího v kanálu druhém, ale v praxi dochází k tzv. přeslechům, kdy oba kanály obsahují oba dva zvukové ""proudy"", ale s různou intenzitou. Pro dobré výsledky rozpoznávání je nezbytné správně vybrat ten kanál, kde je signál právě hovořícího řečníka kvalitnější. Byl proto vyvinut modul, který ve vstupním signálu na základě výpočtu krátkodobé energie signálu a k-means shlukovací metody takovéto vhodné úseky označí. V ""produkční"" verzi SEASR-ENG byl použit osvědčený jazykový model založený na lineární interpolaci trigramových pravděpodobností získaných z přepisů části rozhovorů (tyto přepisy byly pořízeny primárně pro účely trénování akustického modelu) - slovník cca 30 tisíc (různých) slov, více než 2 miliony slov v textu a databáze Google N-grams - slovník cca 230 tisíc slov

Classification

  • Type

    R - Software

  • CEP classification

    AJ - Literature, mass media, audio-visual activities

  • OECD FORD branch

Result continuities

  • Project

    <a href="/en/project/DF12P01OVV022" target="_blank" >DF12P01OVV022: ASR- and MT-based Access to a Large Archive of Cultural Heritage (AMALACH)</a><br>

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

  • Publication year

    2014

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Internal product ID

    SEASR-ENG

  • Technical parameters

    Projekt DF12P01OVV022, 1.1:2012 - 31.12.2015. Kontakt : Ing. Pavel IRCING, Ph.D., Fakulta aplikovaných věd, Katedra kybernetiky, Univerzitní 22, Plzeň, tel. 37763 2546, email: ircing@kky.zcu.cz. Akustické modely - 3-stavové HMM, mezislovní trifónové závislosti, kepstrální normalizace, adaptivní a diskriminativní trénink. Extrakce příznaků - 15 PLP + delta + delta-delta. Jazykový model - trigram.

  • Economical parameters

    Výsledek je plánovaným výstupem projektu DF12P01OVV022 "Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)". Slouží k automatickému zpracování audiovizuálního archivu metodami automatického rozpoznávání řeči do formy, která umožňuje rychlé a efektivní vyhledávání zadaných slov či frází.

  • Owner IČO

    49777513

  • Owner name

    Západočeská univerzita v Plzni