Rozpoznávač řeči pracující s velmi velkým slovníkem pro automatickou transkripci českých zpravodajských pořadů

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24310%2F04%3A00000013" target="_blank" >RIV/46747885:24310/04:00000013 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
angličtina
Název v původním jazyce
Very Large Vocabulary Speech Recognition System for Automatic Transcription of Czech Broadcast Programs
Popis výsledku v původním jazyce
This paper describes the first speech recognition system capable of transcribing a wide range of spoken broadcast programs in Czech language with the OOV rate being below 3 per cent.To achieve that level we had to a) create an optimized 200k word vocabulary with multiple text and pronunciation forms, b) extract an appropriate language model from a 300M word text corpus and c) develop an own decoderspecially designed for the lexicon of that size. The system was tested on various types of broadcast programs with the following results: the Czech part of the European COST278 database of TV news(71.5 % accuracy rate on complete news streams, 82.7 % on their clean parts), radio news (80.2 %), read commentaries (78.6 %), broadcast debates (74.3 %) and recordings of the state presidents' speeches (85.8 %).
Název v anglickém jazyce
Very Large Vocabulary Speech Recognition System for Automatic Transcription of Czech Broadcast Programs
Popis výsledku anglicky
This paper describes the first speech recognition system capable of transcribing a wide range of spoken broadcast programs in Czech language with the OOV rate being below 3 per cent.To achieve that level we had to a) create an optimized 200k word vocabulary with multiple text and pronunciation forms, b) extract an appropriate language model from a 300M word text corpus and c) develop an own decoderspecially designed for the lexicon of that size. The system was tested on various types of broadcast programs with the following results: the Czech part of the European COST278 database of TV news(71.5 % accuracy rate on complete news streams, 82.7 % on their clean parts), radio news (80.2 %), read commentaries (78.6 %), broadcast debates (74.3 %) and recordings of the state presidents' speeches (85.8 %).

Klasifikace

Druh
J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—

Návaznosti výsledku

Projekt
—
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)

Ostatní

Rok uplatnění
2004
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Název periodika
Interspeech 2004 ICSLP Proceedings
ISSN
1225-441x
e-ISSN
—
Svazek periodika
Neuveden
Číslo periodika v rámci svazku
2004
Stát vydavatele periodika
KR - Korejská republika
Počet stran výsledku
4
Strana od-do
409-412
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—

Podobné výsledky(10)

Víceslovné výrazy v systému pro přepis českých zpravodajských pořadů Large vocabulary speech recognition for read and broadcast Czech Comparison of word-based and class - based language models for speech recognition of the czech weather forecast

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Rozpoznávač řeči pracující s velmi velkým slovníkem pro automatickou transkripci českých zpravodajských pořadů

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)