Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Použití n-gramu založeného na slovních druzích pro tvorbu rozpoznávače českého jazyka

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F07%3A03137207" target="_blank" >RIV/68407700:21230/07:03137207 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Použití n-gramu založeného na slovních druzích pro tvorbu rozpoznávače českého jazyka

  • Popis výsledku v původním jazyce

    Příspěvek se zabývá možností konstrukce jazykového modelu pro rozpoznávač mluvené řeči v českém jazyce s velkým slovníkem. Český jazyk samotný obsahuje kolem 300 tisíc slov v základní formě a cca 5 miliónů slov ve všech formách (ohýbání, skloňování). Základní myšlenka příspěvku spočívá v reprezentaci jazykového modelu běžným n-gramovým modelem vytvořeným pouze z několika tříd (260 ti), které v podstatě reprezentují slovní druhy v daném tvaru. Takto vytvořený jazykový model je použit pro nalezení nejlepší (nejpravděpodobnější) posloupnosti slov.

  • Název v anglickém jazyce

    Use n-gram based on word classes for Czech speech recognition

  • Popis výsledku anglicky

    This contribution deals with the construction of language model (LM) for Czech large vocabulary continuous speech recogniser (LVCSR). Czech language contains about 300 thousand words in basic form and about 5 millions of words in different forms (declensions, inflections). The main idea of this work is in representation of LM with standard n-gram model based on several classes (260) which represent all word classes in the given form. Such LM is used to find the best (most likely) word sequence.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    JA - Elektronika a optoelektronika, elektrotechnika

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.

  • Návaznosti

    Z - Vyzkumny zamer (s odkazem do CEZ)

Ostatní

  • Rok uplatnění

    2007

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Analýza a zpracování řečových a biologických signálů

  • ISBN

    978-80-01-03940-3

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    6

  • Strana od-do

    43-48

  • Název nakladatele

    ČVUT v Praze

  • Místo vydání

    Praha

  • Místo konání akce

    Praha

  • Datum konání akce

    15. 11. 2007

  • Typ akce podle státní příslušnosti

    CST - Celostátní akce

  • Kód UT WoS článku