Možnosti a meze korpusového výzkumu proprií
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14210%2F24%3A00137285" target="_blank" >RIV/00216224:14210/24:00137285 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Možnosti a meze korpusového výzkumu proprií
Popis výsledku v původním jazyce
V příspěvku bychom chtěli na základě zkušeností s českými jazykovými korpusy ukázat meze a možnosti výzkumu proprií, a to s ohledem na stav morfologického značkování užívaného v českém prostředí. Objasníme, jak jednotlivé kroky automatické morfologické analýzy ovlivňují stav lemmatizace a značkování v případě proprií. Dotkneme se problému tokenizace a víceslovných proprií, problému doplňování morfologického slovníku ve vztahu k propriím, zvláštností flexe proprií a jejich homonymie s apelativy ve vztahu k značkování a disambiguaci. Upozorníme na případy, kdy není vhodné při výzkumu spoléhat na morfologické značkování, na konkrétních příkladech ukážeme zkreslení výzkumných dat způsobené chybným morfologickým značkováním. Nastíníme možnosti, jak se zkreslení analyzovaných dat vyhnout. V příspěvku dále ukážeme možnosti využití různých počítačových nástrojů na konkrétních příkladech onomastického výzkumu. Představíme rozdíly v použití získávání dat z korpusů ČNK, SketchEngine a Aranea, ukážeme možnosti složitějších CQL dotazů při třídění dat. Představíme méně známé kategorie značkování v korpusech Aranea a ukážeme jeho efektivní využití při získávání onomastických dat.
Název v anglickém jazyce
Possibilities and limitations of corpus research on proper names
Popis výsledku anglicky
In this presentation we would like to show the limits and possibilities of proprioid research based on our experience with Czech language corpora, taking into account the state of morphological marking used in the Czech environment. We will clarify how the individual steps of automatic morphological analysis affect the state of lemmatization and tagging in the case of proprias. We will touch upon the problem of tokenization and multi-word proprioids, the problem of completing the morphological dictionary in relation to proprioids, the peculiarities of flexion of proprioids and their homonymy with appellatives in relation to marking and disambiguation. We will point out the cases when it is not appropriate to rely on morphological tagging in research, and we will use concrete examples to show the distortion of research data caused by incorrect morphological tagging. We will outline ways to avoid bias in analyzed data. In the paper we will also show the possibilities of using different computational tools on concrete examples of onomastic research. We will present the differences in the use of data extraction from CNK, SketchEngine and Aranea corpora, and show the possibilities of more complex CQL queries in data classification. We will introduce the lesser known categories of tagging in Aranea corpora and show its effective use in onomastic data mining.
Klasifikace
Druh
O - Ostatní výsledky
CEP obor
—
OECD FORD obor
60203 - Linguistics
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů