Příprava a analýza Českého Web 1T 5-gram korpusu pro použití v jazykovém modelu
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F10%3A00172256" target="_blank" >RIV/68407700:21230/10:00172256 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Příprava a analýza Českého Web 1T 5-gram korpusu pro použití v jazykovém modelu
Popis výsledku v původním jazyce
V této práci je popsán postup analýzy českého Web 1T 5-gram korpusu. Korpus byl analyzován a byly vyhodnoceny jeho základní charakteristiky před a v průběhu zpracování. Při zpracování byl slovník korpusu filtrován různými metodami, tak aby pokud možno obsahoval pouze smysluplná slova. Z pročištěného korpusu byly vygenerovány jazykové modely pro Large Vocabulary Continuous Speech Recognition (LVCSR) a spočítána jejich perplexita. Pro srovnání stejnými filtrovacími postupy byl také zpracovaný 5- gramový korpusu založený na SYN2006PUB korpusu který sestavil Český národní korpus (ČNK).
Název v anglickém jazyce
Preparation and analysis of Czech Web 1T 5-gram corpus for language model creation
Popis výsledku anglicky
This paper describes an approach to analysis of Czech Web 1T 5-gram corpus. This corpus was analyzed and its basic characteristics were evaluated. Various filtering methods were used during processing, so only meaningful words are included in vocabulary.From this cleaned corpus language models for Large Vocabulary Continuous Speech Recognition (LVCSR) were created and theirs perplexities were counted. For comparison, same filtering methods were used for processing 5-gram corpus based on SYN2006PUB corpus, assembled by Czech National Corpus (CNC).
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JA - Elektronika a optoelektronika, elektrotechnika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/GA102%2F08%2F0707" target="_blank" >GA102/08/0707: Rozpoznávání mluvené řeči v reálných podmínkách</a><br>
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2010
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Analýza a zpracování řečových a biologických signálů - sborník prací 2010
ISBN
978-80-01-04680-7
ISSN
—
e-ISSN
—
Počet stran výsledku
7
Strana od-do
—
Název nakladatele
České vysoké učení technické v Praze
Místo vydání
Praha
Místo konání akce
Praha
Datum konání akce
10. 12. 2010
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—