Využití corpus driven metod při corpus based výzkumu

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14210%2F15%3A00083001" target="_blank" >RIV/00216224:14210/15:00083001 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
čeština
Název v původním jazyce
Využití corpus driven metod při corpus based výzkumu
Popis výsledku v původním jazyce
Jedním z podstatných rysů aplikací automatické analýzy přirozeného jazyka je tzv. přegerovávání. Formální definici odpovídají jednotky, které tvoří homogenní skupinu (tu, kterou se prostřednictvím formálního zadání snažíme definovat), ale i jednotky, které jsou vůči této skupině heterogenní. Tento jev spadá na vrub obecné vlastnosti přirozeného jazyka, jíž je nejednoznačnost (homonymie) na všech úrovních. Rubem téže mince je tzv. podgenerovávání, tedy případ, kdy formální zadání je vymezeno příliš úzce,takže nejsou zachyceny jednotky, které se jeho prostřednictvím snažíme definovat. Na konkrétním příkladu ukážeme postup optimalizace vyhledávání dat pro korpusově založený (corpus based) výzkum slovotvorby, který vychází z korpusově řízené (corpus driven) metody zpřesňování formálního zadání na základě pozorování přegenerovaných dat.
Název v anglickém jazyce
The Corpus-driven and Corpus-based Approach in Practice
Popis výsledku anglicky
Overgeneration is a property of formal rules which does not cover the exact language data it was designed for. It is equivalent to low precision and occurs when a formal rule (corpus query) is too widely defined. Undergeneration is equivalent to low recall and occurs when a formal rule (corpus query) is too narrowly specified. Both are caused by the ambiguity of natural language. In this article we shall demonstrate how to use corpus driven method in optimization of retrieval technique for corpus basedanalysis. On a specific example of retrieval of candidates for a word formation model (kutil) we shall show how to use observation of corpus data for progressive specification of corpus query.

Klasifikace

Druh
D - Stať ve sborníku
CEP obor
AI - Jazykověda
OECD FORD obor
—

Návaznosti výsledku

Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach

Ostatní

Rok uplatnění
2015
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Název statě ve sborníku
Proměna jazyka a jeho výzkumu v době nových médií a technologií
ISBN
9788086496870
ISSN
—
e-ISSN
—
Počet stran výsledku
10
Strana od-do
3-12
Název nakladatele
Ústav pro jazyk český AV ČR
Místo vydání
Praha
Místo konání akce
FF MU Brno
Datum konání akce
1. 1. 2013
Typ akce podle státní příslušnosti
EUR - Evropská akce
Kód UT WoS článku
—

Podobné výsledky(10)

Corpus Linguist: an AI-powered corpus research assistant Přegenerování a podgenerování : Jak efektivně vyhledávat v jazykových korpusech data pro lingvistický výzkum Alpha

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Využití corpus driven metod při corpus based výzkumu

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)