Second Order Optimality in Transient and Discounted Markov Decision Chains

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F67985556%3A_____%2F15%3A00448938" target="_blank" >RIV/67985556:_____/15:00448938 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
angličtina
Název v původním jazyce
Second Order Optimality in Transient and Discounted Markov Decision Chains
Popis výsledku v původním jazyce
The article is devoted to second order optimality in Markov decision processes. Attention is primarily focused on the reward variance for discounted models and undiscounted transient models (i.e. where the spectral radius of the transition probability matrix is less than unity). Considering the second order optimality criteria means that in the class of policies maximizing (or minimizing) total expected discounted reward (or undiscounted reward for the transient model) we choose the policy minimizing the total variance. Explicit formulae for calculating the variances for transient and discounted models are reported along with sketches of algoritmic procedures for finding second order optimal policies.
Název v anglickém jazyce
Second Order Optimality in Transient and Discounted Markov Decision Chains
Popis výsledku anglicky
The article is devoted to second order optimality in Markov decision processes. Attention is primarily focused on the reward variance for discounted models and undiscounted transient models (i.e. where the spectral radius of the transition probability matrix is less than unity). Considering the second order optimality criteria means that in the class of policies maximizing (or minimizing) total expected discounted reward (or undiscounted reward for the transient model) we choose the policy minimizing the total variance. Explicit formulae for calculating the variances for transient and discounted models are reported along with sketches of algoritmic procedures for finding second order optimal policies.

Klasifikace

Druh
D - Stať ve sborníku
CEP obor
BC - Teorie a systémy řízení
OECD FORD obor
—

Návaznosti výsledku

Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace

Ostatní

Rok uplatnění
2015
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Název statě ve sborníku
Procedings of the 33rd International Conference Mathematical Methods in Economics MME 2015
ISBN
978-80-261-0539-8
ISSN
—
e-ISSN
—
Počet stran výsledku
6
Strana od-do
731-736
Název nakladatele
University of West Bohemia, Plzeň
Místo vydání
Plzeň
Místo konání akce
Cheb
Datum konání akce
9. 9. 2015
Typ akce podle státní příslušnosti
EUR - Evropská akce
Kód UT WoS článku
—

Podobné výsledky(10)

Second Order Optimality in Markov Decision Chains The Variance of Discounted Rewards in Markov Decision Processes: Laurent Expansion and Sensitive Optimality Calculating the variance in Markov reward chains with a small interest rate.

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Second Order Optimality in Transient and Discounted Markov Decision Chains

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)