Preparation and analysis of Czech Web 1T 5-gram corpus for language model creation

The result's identifiers

Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F10%3A00172256" target="_blank" >RIV/68407700:21230/10:00172256 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—

Alternative languages

Result language
čeština
Original language name
Příprava a analýza Českého Web 1T 5-gram korpusu pro použití v jazykovém modelu
Original language description
V této práci je popsán postup analýzy českého Web 1T 5-gram korpusu. Korpus byl analyzován a byly vyhodnoceny jeho základní charakteristiky před a v průběhu zpracování. Při zpracování byl slovník korpusu filtrován různými metodami, tak aby pokud možno obsahoval pouze smysluplná slova. Z pročištěného korpusu byly vygenerovány jazykové modely pro Large Vocabulary Continuous Speech Recognition (LVCSR) a spočítána jejich perplexita. Pro srovnání stejnými filtrovacími postupy byl také zpracovaný 5- gramový korpusu založený na SYN2006PUB korpusu který sestavil Český národní korpus (ČNK).
Czech name
Příprava a analýza Českého Web 1T 5-gram korpusu pro použití v jazykovém modelu
Czech description
V této práci je popsán postup analýzy českého Web 1T 5-gram korpusu. Korpus byl analyzován a byly vyhodnoceny jeho základní charakteristiky před a v průběhu zpracování. Při zpracování byl slovník korpusu filtrován různými metodami, tak aby pokud možno obsahoval pouze smysluplná slova. Z pročištěného korpusu byly vygenerovány jazykové modely pro Large Vocabulary Continuous Speech Recognition (LVCSR) a spočítána jejich perplexita. Pro srovnání stejnými filtrovacími postupy byl také zpracovaný 5- gramový korpusu založený na SYN2006PUB korpusu který sestavil Český národní korpus (ČNK).

Classification

Type
D - Article in proceedings
CEP classification
JA - Electronics and optoelectronics
OECD FORD branch
—

Result continuities

Project
<a href="/en/project/GA102%2F08%2F0707" target="_blank" >GA102/08/0707: Speech Recognition under Real-World Conditions</a><br>
Continuities
Z - Vyzkumny zamer (s odkazem do CEZ)

Others

Publication year
2010
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

Article name in the collection
Analýza a zpracování řečových a biologických signálů - sborník prací 2010
ISBN
978-80-01-04680-7
ISSN
—
e-ISSN
—
Number of pages
7
Pages from-to
—
Publisher name
České vysoké učení technické v Praze
Place of publication
Praha
Event location
Praha
Event date
Dec 10, 2010
Type of event by nationality
CST - Celostátní akce
UT code for WoS article
—

Similar results(10)

Analysis of Czech Web 1T 5-gram corpus and its comparison with Czech National Corpus Data Performance of Czech Speech Recognition with Language Models Created from Public Resources Expressing Time in English and Czech Children's Literature: A Contrastive N-gram-Based Study of Typologically Distant Languages

What are you looking for?

Quick search

Smart search

Preparation and analysis of Czech Web 1T 5-gram corpus for language model creation

The result's identifiers

Alternative languages

Classification

Result continuities

Others

Data specific for result type

Similar results(10)

What are you looking for?

Quick search

Smart search

Result description

The result's identifiers

The result's identifiers

Alternative languages

Alternative languages

Classification

Classification

Result continuities

Result continuities

Others

Others

Data specific for result type

Data specific for result type

Similar results(10)