Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Možnosti a meze korpusového výzkumu proprií

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14210%2F24%3A00137285" target="_blank" >RIV/00216224:14210/24:00137285 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Možnosti a meze korpusového výzkumu proprií

  • Popis výsledku v původním jazyce

    V příspěvku bychom chtěli na základě zkušeností s českými jazykovými korpusy ukázat meze a možnosti výzkumu proprií, a to s ohledem na stav morfologického značkování užívaného v českém prostředí. Objasníme, jak jednotlivé kroky automatické morfologické analýzy ovlivňují stav lemmatizace a značkování v případě proprií. Dotkneme se problému tokenizace a víceslovných proprií, problému doplňování morfologického slovníku ve vztahu k propriím, zvláštností flexe proprií a jejich homonymie s apelativy ve vztahu k značkování a disambiguaci. Upozorníme na případy, kdy není vhodné při výzkumu spoléhat na morfologické značkování, na konkrétních příkladech ukážeme zkreslení výzkumných dat způsobené chybným morfologickým značkováním. Nastíníme možnosti, jak se zkreslení analyzovaných dat vyhnout. V příspěvku dále ukážeme možnosti využití různých počítačových nástrojů na konkrétních příkladech onomastického výzkumu. Představíme rozdíly v použití získávání dat z korpusů ČNK, SketchEngine a Aranea, ukážeme možnosti složitějších CQL dotazů při třídění dat. Představíme méně známé kategorie značkování v korpusech Aranea a ukážeme jeho efektivní využití při získávání onomastických dat.

  • Název v anglickém jazyce

    Possibilities and limitations of corpus research on proper names

  • Popis výsledku anglicky

    In this presentation we would like to show the limits and possibilities of proprioid research based on our experience with Czech language corpora, taking into account the state of morphological marking used in the Czech environment. We will clarify how the individual steps of automatic morphological analysis affect the state of lemmatization and tagging in the case of proprias. We will touch upon the problem of tokenization and multi-word proprioids, the problem of completing the morphological dictionary in relation to proprioids, the peculiarities of flexion of proprioids and their homonymy with appellatives in relation to marking and disambiguation. We will point out the cases when it is not appropriate to rely on morphological tagging in research, and we will use concrete examples to show the distortion of research data caused by incorrect morphological tagging. We will outline ways to avoid bias in analyzed data. In the paper we will also show the possibilities of using different computational tools on concrete examples of onomastic research. We will present the differences in the use of data extraction from CNK, SketchEngine and Aranea corpora, and show the possibilities of more complex CQL queries in data classification. We will introduce the lesser known categories of tagging in Aranea corpora and show its effective use in onomastic data mining.

Klasifikace

  • Druh

    O - Ostatní výsledky

  • CEP obor

  • OECD FORD obor

    60203 - Linguistics

Návaznosti výsledku

  • Projekt

  • Návaznosti

    S - Specificky vyzkum na vysokych skolach

Ostatní

  • Rok uplatnění

    2024

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů