Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Derivační analyzátor češtiny

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F11%3A00056895" target="_blank" >RIV/00216224:14330/11:00056895 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Derivační analyzátor češtiny

  • Popis výsledku v původním jazyce

    Standardní morfologické analyzátory nabízejí ke vstupnímu slovu jeho základní tvar, ale neposkytují (nebo jen omezeně) informace o příbuzných slovech typu otec-otcův, Praha-pražský, řezat-řezání ap. Taková informace může být velmi užitečná při indexaci textu pro vyhledávání nebo při syntaktické analýze přirozeného jazyka. Derivační analyzátor češtiny je rychlý analyzátor poskytující informace o derivačních vztazích mezi slovy, který je dostupný jak ve formě knihovny funkcí, tak i řádkového programu. Analyzátor je založený na konečných automatech a částečně využívá algoritmy Jana Daciuka pro tvorbu minimálních konečných automatů, z čehož plyne jak rychlost analýzy, tak jednoduchost, a tedy udržovatelnost a snadná rozšiřitelnost kódu. Analyzátor má v současné době data pouze pro češtinu, ale řešení je obecné a použitelné i pro jiné jazyky.

  • Název v anglickém jazyce

    Czech Derivational Analyser

  • Popis výsledku anglicky

    Common morphological analysers offer lemmatization, but they do not have an information (or only to a little extent) on derived words. Such information can be very helpful for indexing texts for searching or for a syntactical analysis of the natural language. Our Czech Derivational Analyser is a fast tool which offers an information on derivational relations between words. The analyser is available in the form of a command line tool or as a library in the form of calling functions in the C++ language. The analyser is based on finite automata and partially uses Jan Daciuk's algorithms for creating minimal finite states automata, so that it is both fast and easily maintainable. On the present, we have data only for Czech, but the tool itself can be usedfor other languages as well.

Klasifikace

  • Druh

    R - Software

  • CEP obor

    AI - Jazykověda

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/LC536" target="_blank" >LC536: Centrum komputační lingvistiky</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2011

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    derivanče

  • Technické parametry

    Odpovědná osoba pro jednání: Pavel Šmerk, Fakulta informatiky, Masarykova univerzita, Botanická 68a, Brno 60200, e-mail: smerk@mail.muni.cz, tel.: 549494347

  • Ekonomické parametry

    Informace poskytovaná analyzátorem umožňuje lepší indexaci textových dat a jejich následné vyhledávání. Software byl předán na testování firmě Seznam.cz a letos by měla být podepsána smlouva v hodnotě 50000-100000 Kč. Předpokládá se též využití ve vyhledávání a plagiátové kontrole vývojovým týmem Informačního systému Masarykovy univerzity (IS provozován na osmi českých VŠ/VOŠ, dále jde o celonárodní projekty theses.cz, repozitar.cz a odevzdej.cz).

  • IČO vlastníka výsledku

    00216224

  • Název vlastníka

    Masarykova univerzita