Použití n-gramu založeného na slovních druzích pro tvorbu rozpoznávače českého jazyka

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F07%3A03137207" target="_blank" >RIV/68407700:21230/07:03137207 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—

Jazyk výsledku
čeština
Název v původním jazyce
Použití n-gramu založeného na slovních druzích pro tvorbu rozpoznávače českého jazyka
Popis výsledku v původním jazyce
Příspěvek se zabývá možností konstrukce jazykového modelu pro rozpoznávač mluvené řeči v českém jazyce s velkým slovníkem. Český jazyk samotný obsahuje kolem 300 tisíc slov v základní formě a cca 5 miliónů slov ve všech formách (ohýbání, skloňování). Základní myšlenka příspěvku spočívá v reprezentaci jazykového modelu běžným n-gramovým modelem vytvořeným pouze z několika tříd (260 ti), které v podstatě reprezentují slovní druhy v daném tvaru. Takto vytvořený jazykový model je použit pro nalezení nejlepší (nejpravděpodobnější) posloupnosti slov.
Název v anglickém jazyce
Use n-gram based on word classes for Czech speech recognition
Popis výsledku anglicky
This contribution deals with the construction of language model (LM) for Czech large vocabulary continuous speech recogniser (LVCSR). Czech language contains about 300 thousand words in basic form and about 5 millions of words in different forms (declensions, inflections). The main idea of this work is in representation of LM with standard n-gram model based on several classes (260) which represent all word classes in the given form. Such LM is used to find the best (most likely) word sequence.

Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)

Rok uplatnění
2007
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Podobné výsledky(10)