Laboratory Conditions Czech Audio-Visual Speech Corpus
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F08%3A00503098" target="_blank" >RIV/49777513:23520/08:00503098 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Laboratory Conditions Czech Audio-Visual Speech Corpus
Popis výsledku v původním jazyce
This is an audio-visual speech database for training and testing of Czech audio-visual continuous speech recognition systems. The corpus consists of about 25 hours of audio-visual records of 65 speakers in laboratory conditions. Data collection was donewith static illumination, and recorded subjects were instructed to remain static. The average speaker age was 22 years old. Speakers were asked to read 200 sentences each (50 common for all speakers and 150 specific to each speaker). The average total length of recording per speaker is 23 minutes. All audio-visual data are transcribed (.trs files) and divided into sentences (one sentence per file). For each video file we get the description file containing information about the position and size of theregion of interest. Acoustic data are stored in wave files using PCM format, sampling frequency 44kHz, resolution 16 bits. Each speaker?s acoustic data set represents about 140 MB of disk space (about 9 GB as a whole). Visual data are sto
Název v anglickém jazyce
Laboratory Conditions Czech Audio-Visual Speech Corpus
Popis výsledku anglicky
This is an audio-visual speech database for training and testing of Czech audio-visual continuous speech recognition systems. The corpus consists of about 25 hours of audio-visual records of 65 speakers in laboratory conditions. Data collection was donewith static illumination, and recorded subjects were instructed to remain static. The average speaker age was 22 years old. Speakers were asked to read 200 sentences each (50 common for all speakers and 150 specific to each speaker). The average total length of recording per speaker is 23 minutes. All audio-visual data are transcribed (.trs files) and divided into sentences (one sentence per file). For each video file we get the description file containing information about the position and size of theregion of interest. Acoustic data are stored in wave files using PCM format, sampling frequency 44kHz, resolution 16 bits. Each speaker?s acoustic data set represents about 140 MB of disk space (about 9 GB as a whole). Visual data are sto
Klasifikace
Druh
R - Software
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/1ET101470416" target="_blank" >1ET101470416: Multimodální zpracování lidské znakové a mluvené řeči počítačem pro komunikaci člověk-stroj</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2008
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
S0283
Technické parametry
SW produkt obsahuje speciálně připravené záznamy promluv v českém znakovém jazyce pro trénování systému automatického rozpoznávání znakové řeči. Pro nabytí licence kontaktujte Valerii Mapell prostřednictvím http://www.elda.org/contact.php?recip=vm
Ekonomické parametry
—
IČO vlastníka výsledku
49777513
Název vlastníka
Katedra kybernetiky, Fakulta aplikovaných věd, Západočeská univerzity v Plzni (distribuováno společností ELRA - European Language Resources Association)