Corpora As Data Sources For The Up-Grading Of Morphological Tagging
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14210%2F15%3A00083711" target="_blank" >RIV/00216224:14210/15:00083711 - isvavai.cz</a>
Result on the web
<a href="http://cmf.ff.cuni.cz/?q=cs/node/24" target="_blank" >http://cmf.ff.cuni.cz/?q=cs/node/24</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Korpusy jako zdroje dat pro úpravy nástrojů automatické morfologické analýzy (Slovotvorné varianty adjektiv na [(ou)|í]cí z hlediska morfologického značkování)
Original language description
Cílem našeho příspěvku je naznačit, jak 20 let užívání nástrojů automatické morfologické analýzy k morfologickému značkování českých korpusů přispívá k poznání fungování pravidelných paradigmatických derivací v jazyce. Soustředíme se na jeden z případů pravidelných derivací (adjektiva na -oucí/-ící), které jsou na úrovni slovníků automatických analyzátorů zachyceny analogicky jako pravidelně tvořené gramatické tvary . Ukážeme, že značkování adjektiv pravidelně tvořených a na rovině slovníku automatického morfologického analyzátoru automaticky generovaných (s oporou ve slovesném tvaru 3. os. pl./ přechodníku přítomného) není na rovině morfologického slovníku užitého pro morfologické značkování (taging) českých korpusů řady SYN uspokojivě vyřešeno. Na základě pozorování korpusových dat ukážeme, že hlavním důvodem nekonzistencí je existence tvarových variant/dublet opěrných tvarů. Tvarové varianty/dublety jsou příčinou vzniku slovotvorných dublet. Jak tvarové, tak slovotvorné varianty/dublety nejsou uspokojivě zaznamenány pravidly pro generování tvarů příslušných sloves a od nich derivovaných adjektiv. Předpokladem konzistentního značkování je detailní průzkum všech možných variant. Ten je možno v současnosti opřít o velké korpusy. Implementace pravidel pro tvoření slovotvorných variant opřená o objektivní jazyková data může pomoci při optimalizaci nástrojů užívaných k automatické morfologické analýze češtiny.
Czech name
Korpusy jako zdroje dat pro úpravy nástrojů automatické morfologické analýzy (Slovotvorné varianty adjektiv na [(ou)|í]cí z hlediska morfologického značkování)
Czech description
Cílem našeho příspěvku je naznačit, jak 20 let užívání nástrojů automatické morfologické analýzy k morfologickému značkování českých korpusů přispívá k poznání fungování pravidelných paradigmatických derivací v jazyce. Soustředíme se na jeden z případů pravidelných derivací (adjektiva na -oucí/-ící), které jsou na úrovni slovníků automatických analyzátorů zachyceny analogicky jako pravidelně tvořené gramatické tvary . Ukážeme, že značkování adjektiv pravidelně tvořených a na rovině slovníku automatického morfologického analyzátoru automaticky generovaných (s oporou ve slovesném tvaru 3. os. pl./ přechodníku přítomného) není na rovině morfologického slovníku užitého pro morfologické značkování (taging) českých korpusů řady SYN uspokojivě vyřešeno. Na základě pozorování korpusových dat ukážeme, že hlavním důvodem nekonzistencí je existence tvarových variant/dublet opěrných tvarů. Tvarové varianty/dublety jsou příčinou vzniku slovotvorných dublet. Jak tvarové, tak slovotvorné varianty/dublety nejsou uspokojivě zaznamenány pravidly pro generování tvarů příslušných sloves a od nich derivovaných adjektiv. Předpokladem konzistentního značkování je detailní průzkum všech možných variant. Ten je možno v současnosti opřít o velké korpusy. Implementace pravidel pro tvoření slovotvorných variant opřená o objektivní jazyková data může pomoci při optimalizaci nástrojů užívaných k automatické morfologické analýze češtiny.
Classification
Type
J<sub>ost</sub> - Miscellaneous article in a specialist periodical
CEP classification
—
OECD FORD branch
60203 - Linguistics
Result continuities
Project
—
Continuities
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Others
Publication year
2015
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Name of the periodical
Časopis pro moderní filologii
ISSN
0008-7386
e-ISSN
—
Volume of the periodical
97
Issue of the periodical within the volume
2
Country of publishing house
CZ - CZECH REPUBLIC
Number of pages
10
Pages from-to
136-145
UT code for WoS article
—
EID of the result in the Scopus database
—