All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Possibilities and limitations of corpus research on proper names

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14210%2F24%3A00137285" target="_blank" >RIV/00216224:14210/24:00137285 - isvavai.cz</a>

  • Result on the web

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    čeština

  • Original language name

    Možnosti a meze korpusového výzkumu proprií

  • Original language description

    V příspěvku bychom chtěli na základě zkušeností s českými jazykovými korpusy ukázat meze a možnosti výzkumu proprií, a to s ohledem na stav morfologického značkování užívaného v českém prostředí. Objasníme, jak jednotlivé kroky automatické morfologické analýzy ovlivňují stav lemmatizace a značkování v případě proprií. Dotkneme se problému tokenizace a víceslovných proprií, problému doplňování morfologického slovníku ve vztahu k propriím, zvláštností flexe proprií a jejich homonymie s apelativy ve vztahu k značkování a disambiguaci. Upozorníme na případy, kdy není vhodné při výzkumu spoléhat na morfologické značkování, na konkrétních příkladech ukážeme zkreslení výzkumných dat způsobené chybným morfologickým značkováním. Nastíníme možnosti, jak se zkreslení analyzovaných dat vyhnout. V příspěvku dále ukážeme možnosti využití různých počítačových nástrojů na konkrétních příkladech onomastického výzkumu. Představíme rozdíly v použití získávání dat z korpusů ČNK, SketchEngine a Aranea, ukážeme možnosti složitějších CQL dotazů při třídění dat. Představíme méně známé kategorie značkování v korpusech Aranea a ukážeme jeho efektivní využití při získávání onomastických dat.

  • Czech name

    Možnosti a meze korpusového výzkumu proprií

  • Czech description

    V příspěvku bychom chtěli na základě zkušeností s českými jazykovými korpusy ukázat meze a možnosti výzkumu proprií, a to s ohledem na stav morfologického značkování užívaného v českém prostředí. Objasníme, jak jednotlivé kroky automatické morfologické analýzy ovlivňují stav lemmatizace a značkování v případě proprií. Dotkneme se problému tokenizace a víceslovných proprií, problému doplňování morfologického slovníku ve vztahu k propriím, zvláštností flexe proprií a jejich homonymie s apelativy ve vztahu k značkování a disambiguaci. Upozorníme na případy, kdy není vhodné při výzkumu spoléhat na morfologické značkování, na konkrétních příkladech ukážeme zkreslení výzkumných dat způsobené chybným morfologickým značkováním. Nastíníme možnosti, jak se zkreslení analyzovaných dat vyhnout. V příspěvku dále ukážeme možnosti využití různých počítačových nástrojů na konkrétních příkladech onomastického výzkumu. Představíme rozdíly v použití získávání dat z korpusů ČNK, SketchEngine a Aranea, ukážeme možnosti složitějších CQL dotazů při třídění dat. Představíme méně známé kategorie značkování v korpusech Aranea a ukážeme jeho efektivní využití při získávání onomastických dat.

Classification

  • Type

    O - Miscellaneous

  • CEP classification

  • OECD FORD branch

    60203 - Linguistics

Result continuities

  • Project

  • Continuities

    S - Specificky vyzkum na vysokych skolach

Others

  • Publication year

    2024

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů