All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Very Large Vocabulary Speech Recognition System for Automatic Transcription of Czech Broadcast Programs

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24310%2F04%3A00000013" target="_blank" >RIV/46747885:24310/04:00000013 - isvavai.cz</a>

  • Result on the web

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    angličtina

  • Original language name

    Very Large Vocabulary Speech Recognition System for Automatic Transcription of Czech Broadcast Programs

  • Original language description

    This paper describes the first speech recognition system capable of transcribing a wide range of spoken broadcast programs in Czech language with the OOV rate being below 3 per cent.To achieve that level we had to a) create an optimized 200k word vocabulary with multiple text and pronunciation forms, b) extract an appropriate language model from a 300M word text corpus and c) develop an own decoderspecially designed for the lexicon of that size. The system was tested on various types of broadcast programs with the following results: the Czech part of the European COST278 database of TV news(71.5 % accuracy rate on complete news streams, 82.7 % on their clean parts), radio news (80.2 %), read commentaries (78.6 %), broadcast debates (74.3 %) and recordings of the state presidents' speeches (85.8 %).

  • Czech name

    Rozpoznávač řeči pracující s velmi velkým slovníkem pro automatickou transkripci českých zpravodajských pořadů

  • Czech description

    Tento příspěvek popisuje první rozpoznávač řeči schopný přepisovat široké spektrum mluvených zpravodajských pořadů v českém jazyce s OOV pod 3 %.Abychom dosáhli této úrovně, museli jsme a) vytvořit optimizovaný 200 tisícový slovník s vícenásobnými textovými a výslovnostními formami, b) vypočítat příslušný jazykový model z textového korpusu o 300 milionech slov a c) vyvinout vlastní dekodérspeciálně upravený pro slovník této velikosti. Systém byl testován na různých typech zpravodajských pořadů s následujícími výsledky: česká část evropské databáze COST278 televizních zpráv(71.5 % přesnost na všech zprávách, 82.7 % na jejich čistých částech), rozhlasové zprávy (80.2 %), čtené komentáře (78.6 %), vysílané debaty (74.3 %) a záznamy proslovů prezidentů státu (85.8 %).

Classification

  • Type

    J<sub>x</sub> - Unclassified - Peer-reviewed scientific article (Jimp, Jsc and Jost)

  • CEP classification

    JD - Use of computers, robotics and its application

  • OECD FORD branch

Result continuities

  • Project

  • Continuities

    Z - Vyzkumny zamer (s odkazem do CEZ)

Others

  • Publication year

    2004

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Name of the periodical

    Interspeech 2004 ICSLP Proceedings

  • ISSN

    1225-441x

  • e-ISSN

  • Volume of the periodical

    Neuveden

  • Issue of the periodical within the volume

    2004

  • Country of publishing house

    KR - KOREA, REPUBLIC OF

  • Number of pages

    4

  • Pages from-to

    409-412

  • UT code for WoS article

  • EID of the result in the Scopus database