Use n-gram based on word classes for Czech speech recognition
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F07%3A03137207" target="_blank" >RIV/68407700:21230/07:03137207 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Použití n-gramu založeného na slovních druzích pro tvorbu rozpoznávače českého jazyka
Original language description
Příspěvek se zabývá možností konstrukce jazykového modelu pro rozpoznávač mluvené řeči v českém jazyce s velkým slovníkem. Český jazyk samotný obsahuje kolem 300 tisíc slov v základní formě a cca 5 miliónů slov ve všech formách (ohýbání, skloňování). Základní myšlenka příspěvku spočívá v reprezentaci jazykového modelu běžným n-gramovým modelem vytvořeným pouze z několika tříd (260 ti), které v podstatě reprezentují slovní druhy v daném tvaru. Takto vytvořený jazykový model je použit pro nalezení nejlepší (nejpravděpodobnější) posloupnosti slov.
Czech name
Použití n-gramu založeného na slovních druzích pro tvorbu rozpoznávače českého jazyka
Czech description
Příspěvek se zabývá možností konstrukce jazykového modelu pro rozpoznávač mluvené řeči v českém jazyce s velkým slovníkem. Český jazyk samotný obsahuje kolem 300 tisíc slov v základní formě a cca 5 miliónů slov ve všech formách (ohýbání, skloňování). Základní myšlenka příspěvku spočívá v reprezentaci jazykového modelu běžným n-gramovým modelem vytvořeným pouze z několika tříd (260 ti), které v podstatě reprezentují slovní druhy v daném tvaru. Takto vytvořený jazykový model je použit pro nalezení nejlepší (nejpravděpodobnější) posloupnosti slov.
Classification
Type
D - Article in proceedings
CEP classification
JA - Electronics and optoelectronics
OECD FORD branch
—
Result continuities
Project
Result was created during the realization of more than one project. More information in the Projects tab.
Continuities
Z - Vyzkumny zamer (s odkazem do CEZ)
Others
Publication year
2007
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Article name in the collection
Analýza a zpracování řečových a biologických signálů
ISBN
978-80-01-03940-3
ISSN
—
e-ISSN
—
Number of pages
6
Pages from-to
43-48
Publisher name
ČVUT v Praze
Place of publication
Praha
Event location
Praha
Event date
Nov 15, 2007
Type of event by nationality
CST - Celostátní akce
UT code for WoS article
—