Audio-Visual Speech Recognition for Slavonic Languages (Czech and Russian)
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F06%3A00000236" target="_blank" >RIV/49777513:23520/06:00000236 - isvavai.cz</a>
Alternative codes found
RIV/49777513:23520/06:00000019
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
angličtina
Original language name
Audio-Visual Speech Recognition for Slavonic Languages (Czech and Russian)
Original language description
The paper presents the results of recent experiments with audio-visual speech recognition for two popular Slavonic languages: Russian and Czech. The description of test applied tasks, the process of multimodal databases collection and data pre-processing, methods for visual features extraction (geometric shape-based features; DCT and PCA pixel-based visual parameterization) as well as models of audio-visual recognition (concatenation of feature vectors and multi-stream models) are described. The prototypes of applied systems which will use the audio-visual speech recognition engine are mainly directed to the market of intellectual applications such as inquiry machines, video conference communications, moving objects control in noisy environments, etc.
Czech name
Audiovizuální rozpoznávání řeči pro slovanské jazyky (češtinu a ruštinu)
Czech description
Článek prezentuje výsledky posledních experimentů s audiovizuálním rozpoznáváním řeči pro dva slovanské jazyky: ruštinu a češtinu. V článku je uveden popis testovacích aplikačních úloh, proces sbírání multimodální databáze a předzpracování dat, metody pro extrakci vizuálních příznaků (geometrické příznaky založené na tvaru a DCT a PCA parametrizace založené na hodnotě pixelů) a modely audiovizuálního rozpoznávání (spojování příznakových vektorů a multistreamové modely). Prototypy aplikovaných systémů, které používají modul audiovizuálního rozpoznávání řeči jsou směrovány především na trh intelektuiálních aplikací
Classification
Type
D - Article in proceedings
CEP classification
JD - Use of computers, robotics and its application
OECD FORD branch
—
Result continuities
Project
<a href="/en/project/1ET101470416" target="_blank" >1ET101470416: Multimodal human sign language and speech processing for man-machine communication</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>Z - Vyzkumny zamer (s odkazem do CEZ)
Others
Publication year
2006
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Article name in the collection
Proceedings of the 11th international conference "Speech and computer" SPECOM'2006
ISBN
5-7452-0074-X
ISSN
—
e-ISSN
—
Number of pages
6
Pages from-to
493-498
Publisher name
Anatolya Publishers
Place of publication
St.Petersburg
Event location
St.Petersburg
Event date
Jan 1, 2006
Type of event by nationality
WRD - Celosvětová akce
UT code for WoS article
—