Použití n-gramu založeného na slovních druzích pro tvorbu rozpoznávače českého jazyka
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F07%3A03137207" target="_blank" >RIV/68407700:21230/07:03137207 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Použití n-gramu založeného na slovních druzích pro tvorbu rozpoznávače českého jazyka
Popis výsledku v původním jazyce
Příspěvek se zabývá možností konstrukce jazykového modelu pro rozpoznávač mluvené řeči v českém jazyce s velkým slovníkem. Český jazyk samotný obsahuje kolem 300 tisíc slov v základní formě a cca 5 miliónů slov ve všech formách (ohýbání, skloňování). Základní myšlenka příspěvku spočívá v reprezentaci jazykového modelu běžným n-gramovým modelem vytvořeným pouze z několika tříd (260 ti), které v podstatě reprezentují slovní druhy v daném tvaru. Takto vytvořený jazykový model je použit pro nalezení nejlepší (nejpravděpodobnější) posloupnosti slov.
Název v anglickém jazyce
Use n-gram based on word classes for Czech speech recognition
Popis výsledku anglicky
This contribution deals with the construction of language model (LM) for Czech large vocabulary continuous speech recogniser (LVCSR). Czech language contains about 300 thousand words in basic form and about 5 millions of words in different forms (declensions, inflections). The main idea of this work is in representation of LM with standard n-gram model based on several classes (260) which represent all word classes in the given form. Such LM is used to find the best (most likely) word sequence.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JA - Elektronika a optoelektronika, elektrotechnika
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2007
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Analýza a zpracování řečových a biologických signálů
ISBN
978-80-01-03940-3
ISSN
—
e-ISSN
—
Počet stran výsledku
6
Strana od-do
43-48
Název nakladatele
ČVUT v Praze
Místo vydání
Praha
Místo konání akce
Praha
Datum konání akce
15. 11. 2007
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—