Audiovizuální databáze pro rozpoznávání spojité řeči.
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F08%3A00500086" target="_blank" >RIV/49777513:23520/08:00500086 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Design and Recording of Czech Audio-Visual Database with Impaired Conditions for Continuous Speech Recognition
Popis výsledku v původním jazyce
Database introduced in this paper can be used for testing of visual parameterization in audio-visual speech recognition (AVSR). Corpus can be easily split into training and testing part. Each speaker pronounced 200 sentences: first 50 were the same for all, the rest of them were different. Six types of illumination were covered. Session for one speaker can fit on one DVD disk. All files are accompanied by visual labels. Labels specify region of interest (mouth and area around them specified by boundingbox). Actual pronunciation of each sentence is transcribed into the text file.
Název v anglickém jazyce
Design and Recording of Czech Audio-Visual Database with Impaired Conditions for Continuous Speech Recognition
Popis výsledku anglicky
Database introduced in this paper can be used for testing of visual parameterization in audio-visual speech recognition (AVSR). Corpus can be easily split into training and testing part. Each speaker pronounced 200 sentences: first 50 were the same for all, the rest of them were different. Six types of illumination were covered. Session for one speaker can fit on one DVD disk. All files are accompanied by visual labels. Labels specify region of interest (mouth and area around them specified by boundingbox). Actual pronunciation of each sentence is transcribed into the text file.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/1ET101470416" target="_blank" >1ET101470416: Multimodální zpracování lidské znakové a mluvené řeči počítačem pro komunikaci člověk-stroj</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2008
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)
ISBN
2-9517408-4-0
ISSN
—
e-ISSN
—
Počet stran výsledku
5
Strana od-do
—
Název nakladatele
ELRA
Místo vydání
Paris
Místo konání akce
—
Datum konání akce
—
Typ akce podle státní příslušnosti
—
Kód UT WoS článku
—