Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Příprava a analýza Českého Web 1T 5-gram korpusu pro použití v jazykovém modelu

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F10%3A00172256" target="_blank" >RIV/68407700:21230/10:00172256 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Příprava a analýza Českého Web 1T 5-gram korpusu pro použití v jazykovém modelu

  • Popis výsledku v původním jazyce

    V této práci je popsán postup analýzy českého Web 1T 5-gram korpusu. Korpus byl analyzován a byly vyhodnoceny jeho základní charakteristiky před a v průběhu zpracování. Při zpracování byl slovník korpusu filtrován různými metodami, tak aby pokud možno obsahoval pouze smysluplná slova. Z pročištěného korpusu byly vygenerovány jazykové modely pro Large Vocabulary Continuous Speech Recognition (LVCSR) a spočítána jejich perplexita. Pro srovnání stejnými filtrovacími postupy byl také zpracovaný 5- gramový korpusu založený na SYN2006PUB korpusu který sestavil Český národní korpus (ČNK).

  • Název v anglickém jazyce

    Preparation and analysis of Czech Web 1T 5-gram corpus for language model creation

  • Popis výsledku anglicky

    This paper describes an approach to analysis of Czech Web 1T 5-gram corpus. This corpus was analyzed and its basic characteristics were evaluated. Various filtering methods were used during processing, so only meaningful words are included in vocabulary.From this cleaned corpus language models for Large Vocabulary Continuous Speech Recognition (LVCSR) were created and theirs perplexities were counted. For comparison, same filtering methods were used for processing 5-gram corpus based on SYN2006PUB corpus, assembled by Czech National Corpus (CNC).

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    JA - Elektronika a optoelektronika, elektrotechnika

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/GA102%2F08%2F0707" target="_blank" >GA102/08/0707: Rozpoznávání mluvené řeči v reálných podmínkách</a><br>

  • Návaznosti

    Z - Vyzkumny zamer (s odkazem do CEZ)

Ostatní

  • Rok uplatnění

    2010

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Analýza a zpracování řečových a biologických signálů - sborník prací 2010

  • ISBN

    978-80-01-04680-7

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    7

  • Strana od-do

  • Název nakladatele

    České vysoké učení technické v Praze

  • Místo vydání

    Praha

  • Místo konání akce

    Praha

  • Datum konání akce

    10. 12. 2010

  • Typ akce podle státní příslušnosti

    CST - Celostátní akce

  • Kód UT WoS článku