Tvorba rozpoznávače plynulých promluv v českém jazyce standardními nástroji HTK
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F10%3A00168291" target="_blank" >RIV/68407700:21230/10:00168291 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Tvorba rozpoznávače plynulých promluv v českém jazyce standardními nástroji HTK
Popis výsledku v původním jazyce
Článek popisuje tvorbu rozpoznávače spojité řeči s velkým slovníkem pro češtinu pomocí nástrojů HTK. Standardní postup prezentovaný v dokumentaci k HTK je doplněn o jazykově závislé zvláštnosti. Článek přináší přehled jednotlivých kroků pro rychlé vytvoření systému pro první experimenty s rozpoznáváním spojité řeči, které sice není optimální z hlediska rychlosti i dosažitelné přesnosti, avšak umožňuje flexibilitu při testování modifikací dílčích modulů rozpoznávače spojité řeči. Článek také popisuje tvorbu trifónových modelů s mezislovním kontextem a základní postup pro vytvoření jazykového modelu. Nakonec jsou prezentovány experimentální výsledky pro vyvážené nastavení dosažitelné rychlosti a přesnosti systému. Daný systém pracuje v současnosti 1,5-2krát pomaleji, než je požadované minimum pro běh v reálném čase, s akceptovatelnou přesností pro rozpoznávání se středně velkým slovníkem.
Název v anglickém jazyce
Creation of Czech continuous speech recognizer using HTK Toolkit
Popis výsledku anglicky
This paper describes LVCSR construction based on basic tools from HMM Toolkit (HTK) for Czech language. Standard design of LVCSR explained in HTK documentation is supplemented by Czech language specific peculiarities. The paper brings the overview of particular steps required for the creation of a system which can be used as a first step in LVCSR research. Although it is not an optimal solution, especially from the point of view of achieved speed and accuracy, the usage of HTK tools provides high flexibility in the testing of different modifications of particular LVCSR modules. The paper also describes the training of context-dependent cross-word triphone HMMs and statistical language model generation with possible optimization of its performance. Finally, the experiments on parameter setting for recognition time and accuracy balance are presented. Proposed system gives currently real-time factor between 1.5 and 2 with acceptable accuracy for medium-sized vocabulary recognition task.
Klasifikace
Druh
J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)
CEP obor
JA - Elektronika a optoelektronika, elektrotechnika
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2010
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Akustické listy
ISSN
1212-4702
e-ISSN
—
Svazek periodika
16
Číslo periodika v rámci svazku
1
Stát vydavatele periodika
CZ - Česká republika
Počet stran výsledku
6
Strana od-do
—
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—