On Disambiguation in Czech Corpora
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F00%3A00002818" target="_blank" >RIV/00216224:14330/00:00002818 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
On Disambiguation in Czech Corpora
Popis výsledku v původním jazyce
Lemma disambiguation means finding the basic word form, typically nominative singular for nouns or infinitive for verbs. We developed a multistrategy method for lemma disambiguation of unannotated text. The method is based on a combination of inductivelogic programming and instance-based learning. We present results of the most important subtasks of lemma disambiguation for Czech language. Although no expert knowledge on Czech grammar has been used the accuracy reaches 90% with a fraction of words re maining ambiguous. We also display first results of tag disambiguation.
Název v anglickém jazyce
On Disambiguation in Czech Corpora
Popis výsledku anglicky
Lemma disambiguation means finding the basic word form, typically nominative singular for nouns or infinitive for verbs. We developed a multistrategy method for lemma disambiguation of unannotated text. The method is based on a combination of inductivelogic programming and instance-based learning. We present results of the most important subtasks of lemma disambiguation for Czech language. Although no expert knowledge on Czech grammar has been used the accuracy reaches 90% with a fraction of words re maining ambiguous. We also display first results of tag disambiguation.
Klasifikace
Druh
V<sub>x</sub> - Nezařazeno - Výzkumná zpráva obsahující utajované informace (takový výsledek lze do RIV vložit pouze v případě, že zpráva obsahuje utajované informace a pole R12 = U), nebo souhrnná výzkumná zpráva
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/VS97028" target="_blank" >VS97028: Laboratoř zpracování přirozeného jazyka (s aplikacemi pro podporu výuky zrakově postižených)</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2000
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Počet stran výsledku
12
Místo vydání
Brno (CZE)
Název nakladatele resp. objednatele
FI MU
Verze
—