Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Strojové učení základem pro hybridní lemmatizační algoritmus

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26220%2F12%3APU99052" target="_blank" >RIV/00216305:26220/12:PU99052 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Strojové učení základem pro hybridní lemmatizační algoritmus

  • Popis výsledku v původním jazyce

    Lemmatizace je jednou ze základních technik předzpracování textu. Hlavním účelem tohoto procesu je nalezení normalizované formy slova. V tomto článku bude představen lemmatizační algoritmus založený na lemmatizačních pravidlech naučených pomocí Ripple-Down Rules patřících mezi techniky strojového učení. Výhodou tohoto přístupu je, že nevyžaduje znalost morfologie českého jazyka. Dále jsou představeny metody řešící lemmatizaci výjimek a specifických typů slov, které dokážou zvýšit přesnost lemmatizace českého jazyka. V závěru článku jsou diskutovány dosažené výsledky a další potenciální rozšíření, která by pomohla úspěšnost navrženého lemmatizátoru dále zvyšovat. Je také uvedeno srovnání dosažených výsledků s již existujícím systémem LemmaGen pro lemmatizaci českého jazyka, založeném na stejném principu strojového učení, stejně tak jako srovnání se systémy využívajícími morfologickou analýzu a desam

  • Název v anglickém jazyce

    Machine learning as a cornerstone for hybrid lemmatization algorithm

  • Popis výsledku anglicky

    Lemmatization is one of the basic techniques of text preprocessing. The main purpose of this process is to find a standard form of words. In this article will be presented a lemmatization algorithm based on rules learned by Ripple-Down Rules technique belonging to the machine learning techniques. The advantage of this approach is that it does not require knowledge of the morphology of the Czech language. In addition, methods presented in this article are dealing with exceptions in lemmatization which can increase the accuracy lemmatization of Czech language. In conclusion, the article discusses the achievements and further potential extensions that would help improve the accuracy of algorithm. At the end of the article is also presented a comparison ofthe results obtained by the existing system LemmaGen, based on the same principle of machine learning, as well as compared to systems that use morphological analysis and disambiguation.

Klasifikace

  • Druh

    J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)

  • CEP obor

    IN - Informatika

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/FR-TI4%2F151" target="_blank" >FR-TI4/151: Výzkum a vývoj technologie pro detekci emocí v nestrukturovaných datech</a><br>

  • Návaznosti

    S - Specificky vyzkum na vysokych skolach

Ostatní

  • Rok uplatnění

    2012

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název periodika

    Elektrorevue - Internetový časopis (http://www.elektrorevue.cz)

  • ISSN

    1213-1539

  • e-ISSN

  • Svazek periodika

    2012

  • Číslo periodika v rámci svazku

    57

  • Stát vydavatele periodika

    CZ - Česká republika

  • Počet stran výsledku

    10

  • Strana od-do

    1-10

  • Kód UT WoS článku

  • EID výsledku v databázi Scopus