Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Second Order Optimality in Transient and Discounted Markov Decision Chains

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F67985556%3A_____%2F15%3A00448938" target="_blank" >RIV/67985556:_____/15:00448938 - isvavai.cz</a>

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Second Order Optimality in Transient and Discounted Markov Decision Chains

  • Popis výsledku v původním jazyce

    The article is devoted to second order optimality in Markov decision processes. Attention is primarily focused on the reward variance for discounted models and undiscounted transient models (i.e. where the spectral radius of the transition probability matrix is less than unity). Considering the second order optimality criteria means that in the class of policies maximizing (or minimizing) total expected discounted reward (or undiscounted reward for the transient model) we choose the policy minimizing the total variance. Explicit formulae for calculating the variances for transient and discounted models are reported along with sketches of algoritmic procedures for finding second order optimal policies.

  • Název v anglickém jazyce

    Second Order Optimality in Transient and Discounted Markov Decision Chains

  • Popis výsledku anglicky

    The article is devoted to second order optimality in Markov decision processes. Attention is primarily focused on the reward variance for discounted models and undiscounted transient models (i.e. where the spectral radius of the transition probability matrix is less than unity). Considering the second order optimality criteria means that in the class of policies maximizing (or minimizing) total expected discounted reward (or undiscounted reward for the transient model) we choose the policy minimizing the total variance. Explicit formulae for calculating the variances for transient and discounted models are reported along with sketches of algoritmic procedures for finding second order optimal policies.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    BC - Teorie a systémy řízení

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.

  • Návaznosti

    I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace

Ostatní

  • Rok uplatnění

    2015

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Procedings of the 33rd International Conference Mathematical Methods in Economics MME 2015

  • ISBN

    978-80-261-0539-8

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    6

  • Strana od-do

    731-736

  • Název nakladatele

    University of West Bohemia, Plzeň

  • Místo vydání

    Plzeň

  • Místo konání akce

    Cheb

  • Datum konání akce

    9. 9. 2015

  • Typ akce podle státní příslušnosti

    EUR - Evropská akce

  • Kód UT WoS článku