Possibilities and limitations of corpus research on proper names
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14210%2F24%3A00137285" target="_blank" >RIV/00216224:14210/24:00137285 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Možnosti a meze korpusového výzkumu proprií
Original language description
V příspěvku bychom chtěli na základě zkušeností s českými jazykovými korpusy ukázat meze a možnosti výzkumu proprií, a to s ohledem na stav morfologického značkování užívaného v českém prostředí. Objasníme, jak jednotlivé kroky automatické morfologické analýzy ovlivňují stav lemmatizace a značkování v případě proprií. Dotkneme se problému tokenizace a víceslovných proprií, problému doplňování morfologického slovníku ve vztahu k propriím, zvláštností flexe proprií a jejich homonymie s apelativy ve vztahu k značkování a disambiguaci. Upozorníme na případy, kdy není vhodné při výzkumu spoléhat na morfologické značkování, na konkrétních příkladech ukážeme zkreslení výzkumných dat způsobené chybným morfologickým značkováním. Nastíníme možnosti, jak se zkreslení analyzovaných dat vyhnout. V příspěvku dále ukážeme možnosti využití různých počítačových nástrojů na konkrétních příkladech onomastického výzkumu. Představíme rozdíly v použití získávání dat z korpusů ČNK, SketchEngine a Aranea, ukážeme možnosti složitějších CQL dotazů při třídění dat. Představíme méně známé kategorie značkování v korpusech Aranea a ukážeme jeho efektivní využití při získávání onomastických dat.
Czech name
Možnosti a meze korpusového výzkumu proprií
Czech description
V příspěvku bychom chtěli na základě zkušeností s českými jazykovými korpusy ukázat meze a možnosti výzkumu proprií, a to s ohledem na stav morfologického značkování užívaného v českém prostředí. Objasníme, jak jednotlivé kroky automatické morfologické analýzy ovlivňují stav lemmatizace a značkování v případě proprií. Dotkneme se problému tokenizace a víceslovných proprií, problému doplňování morfologického slovníku ve vztahu k propriím, zvláštností flexe proprií a jejich homonymie s apelativy ve vztahu k značkování a disambiguaci. Upozorníme na případy, kdy není vhodné při výzkumu spoléhat na morfologické značkování, na konkrétních příkladech ukážeme zkreslení výzkumných dat způsobené chybným morfologickým značkováním. Nastíníme možnosti, jak se zkreslení analyzovaných dat vyhnout. V příspěvku dále ukážeme možnosti využití různých počítačových nástrojů na konkrétních příkladech onomastického výzkumu. Představíme rozdíly v použití získávání dat z korpusů ČNK, SketchEngine a Aranea, ukážeme možnosti složitějších CQL dotazů při třídění dat. Představíme méně známé kategorie značkování v korpusech Aranea a ukážeme jeho efektivní využití při získávání onomastických dat.
Classification
Type
O - Miscellaneous
CEP classification
—
OECD FORD branch
60203 - Linguistics
Result continuities
Project
—
Continuities
S - Specificky vyzkum na vysokych skolach
Others
Publication year
2024
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů