Problem of Lemma Variants in the Natural Language Processing
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F11%3A10107937" target="_blank" >RIV/00216208:11320/11:10107937 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Problém variantních tvarů slov při automatickém zpracování jazyka
Original language description
Zápis slov v~mnoha jazycích není jednoznačný, existují různé varianty. Někdy se jedná o~varianty rovnocenné, jindy jsou některé nářeční, nespisovné či jinak příznakové. Při automatickém zpracování jazyka však chceme umět rozpoznat všechny, a současně jimpřiřadit stejný základní tvar, tzv. lemma. Na druhou stranu ale potřebujeme všechny varianty od sebe nějakým způsobem odlišit, abychom např. mohli při automatické syntéze zvolit tu správnou. Příspěvek se zabývá možným řešením tohoto problému, a to zavedením tzv. vícenásobného lemmatu. Uvedeme možnosti jeho využití při konkrétních aplikacích, zejména v~korpusové lingvistice.
Czech name
Problém variantních tvarů slov při automatickém zpracování jazyka
Czech description
Zápis slov v~mnoha jazycích není jednoznačný, existují různé varianty. Někdy se jedná o~varianty rovnocenné, jindy jsou některé nářeční, nespisovné či jinak příznakové. Při automatickém zpracování jazyka však chceme umět rozpoznat všechny, a současně jimpřiřadit stejný základní tvar, tzv. lemma. Na druhou stranu ale potřebujeme všechny varianty od sebe nějakým způsobem odlišit, abychom např. mohli při automatické syntéze zvolit tu správnou. Příspěvek se zabývá možným řešením tohoto problému, a to zavedením tzv. vícenásobného lemmatu. Uvedeme možnosti jeho využití při konkrétních aplikacích, zejména v~korpusové lingvistice.
Classification
Type
D - Article in proceedings
CEP classification
AI - Linguistics
OECD FORD branch
—
Result continuities
Project
<a href="/en/project/GAP406%2F10%2F0875" target="_blank" >GAP406/10/0875: Computational Linguistics: Explicit description of language and annotated data focused on Czech</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>Z - Vyzkumny zamer (s odkazem do CEZ)
Others
Publication year
2011
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Article name in the collection
Information Technologies ? Applications and Theory
ISBN
978-80-89557-01-1
ISSN
—
e-ISSN
—
Number of pages
4
Pages from-to
75-78
Publisher name
Univerzita Pavla Jozefa Šafárika v Košiciach
Place of publication
Košice, Slovakia
Event location
Vrátna dolina, Slovakia
Event date
Sep 23, 2011
Type of event by nationality
CST - Celostátní akce
UT code for WoS article
—