Derivační analyzátor češtiny
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F11%3A00056895" target="_blank" >RIV/00216224:14330/11:00056895 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Derivační analyzátor češtiny
Popis výsledku v původním jazyce
Standardní morfologické analyzátory nabízejí ke vstupnímu slovu jeho základní tvar, ale neposkytují (nebo jen omezeně) informace o příbuzných slovech typu otec-otcův, Praha-pražský, řezat-řezání ap. Taková informace může být velmi užitečná při indexaci textu pro vyhledávání nebo při syntaktické analýze přirozeného jazyka. Derivační analyzátor češtiny je rychlý analyzátor poskytující informace o derivačních vztazích mezi slovy, který je dostupný jak ve formě knihovny funkcí, tak i řádkového programu. Analyzátor je založený na konečných automatech a částečně využívá algoritmy Jana Daciuka pro tvorbu minimálních konečných automatů, z čehož plyne jak rychlost analýzy, tak jednoduchost, a tedy udržovatelnost a snadná rozšiřitelnost kódu. Analyzátor má v současné době data pouze pro češtinu, ale řešení je obecné a použitelné i pro jiné jazyky.
Název v anglickém jazyce
Czech Derivational Analyser
Popis výsledku anglicky
Common morphological analysers offer lemmatization, but they do not have an information (or only to a little extent) on derived words. Such information can be very helpful for indexing texts for searching or for a syntactical analysis of the natural language. Our Czech Derivational Analyser is a fast tool which offers an information on derivational relations between words. The analyser is available in the form of a command line tool or as a library in the form of calling functions in the C++ language. The analyser is based on finite automata and partially uses Jan Daciuk's algorithms for creating minimal finite states automata, so that it is both fast and easily maintainable. On the present, we have data only for Czech, but the tool itself can be usedfor other languages as well.
Klasifikace
Druh
R - Software
CEP obor
AI - Jazykověda
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/LC536" target="_blank" >LC536: Centrum komputační lingvistiky</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2011
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
derivanče
Technické parametry
Odpovědná osoba pro jednání: Pavel Šmerk, Fakulta informatiky, Masarykova univerzita, Botanická 68a, Brno 60200, e-mail: smerk@mail.muni.cz, tel.: 549494347
Ekonomické parametry
Informace poskytovaná analyzátorem umožňuje lepší indexaci textových dat a jejich následné vyhledávání. Software byl předán na testování firmě Seznam.cz a letos by měla být podepsána smlouva v hodnotě 50000-100000 Kč. Předpokládá se též využití ve vyhledávání a plagiátové kontrole vývojovým týmem Informačního systému Masarykovy univerzity (IS provozován na osmi českých VŠ/VOŠ, dále jde o celonárodní projekty theses.cz, repozitar.cz a odevzdej.cz).
IČO vlastníka výsledku
00216224
Název vlastníka
Masarykova univerzita