Problémy modelování na základě dat
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F62690094%3A18450%2F03%3A00000641" target="_blank" >RIV/62690094:18450/03:00000641 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Problémy modelování na základě dat
Popis výsledku v původním jazyce
Příspěvek se zabývá problematikou modelování na základě dat extenzivními postupy a chybami, které mohou vznikat při tomto procesu. Je vysvětlena jedna z možných společných příčin pro overfiting modelu, pro chybu výběru proměnné z množiny kandidátních proměnných a pro oversearching, nesprávný výběr z množiny modelů. Tyto nevhodné vlastnosti mohou být u řady algoritmů způsobeny nesprávným použitím statistického testu a zanedbáním rozdílu mezi výběrovým rozdělením testového kritéria a výběrovým rozdělenímmaxima testových krotérií. Jsou prezentovány výsledky simulačního experimentu, které dokumentují uplatnění této chyby a popsány vlastnosti proměnných, při kterých je tato chyba závažná.
Název v anglickém jazyce
Difficulties with modelling based on data
Popis výsledku anglicky
Some sources of errors that can arise as a result of the process of building data-based models are dealt with. A common possible explanation for overfitting, feature selection error, and oversearching is given. These undesirable properties can originatedue to incorrect generalization in selecting a variable for the model according to maximal value from multiple evaluation scores. Results of the experimental simulation presented show that differences between sampling distribution of values and samplingdistribution of maximum of values are important and they can impact the decision process seriously.
Klasifikace
Druh
J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)
CEP obor
BB - Aplikovaná statistika, operační výzkum
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2003
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Statistika
ISSN
0322-788x
e-ISSN
—
Svazek periodika
83
Číslo periodika v rámci svazku
4
Stát vydavatele periodika
CZ - Česká republika
Počet stran výsledku
6
Strana od-do
63-68
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—