Multi-objective Discounted Reward Verification in Graphs and MDPs
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F13%3A00072859" target="_blank" >RIV/00216224:14330/13:00072859 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.1007/978-3-642-45221-5_17" target="_blank" >http://dx.doi.org/10.1007/978-3-642-45221-5_17</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-642-45221-5_17" target="_blank" >10.1007/978-3-642-45221-5_17</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Multi-objective Discounted Reward Verification in Graphs and MDPs
Popis výsledku v původním jazyce
We study the problem of achieving a given value in Markov decision processes (MDPs) with several independent discounted reward objectives. We consider a generalised version of discounted reward objectives, in which the amount of discounting depends on the states visited and on the objective. This definition extends the usual definition of discounted reward, and allows to capture the systems in which the value of different commodities diminish at different and variable rates. We establish results for twoprominent subclasses of the problem, namely state-discount models where the discount factors are only dependent on the state of the MDP (and independent of the objective), and reward-discount models where they are only dependent on the objective (but not on the state of the MDP). For the state-discount models we use a straightforward reduction to expected total reward and show that the problem whether a value is achievable can be solved in polynomial time.
Název v anglickém jazyce
Multi-objective Discounted Reward Verification in Graphs and MDPs
Popis výsledku anglicky
We study the problem of achieving a given value in Markov decision processes (MDPs) with several independent discounted reward objectives. We consider a generalised version of discounted reward objectives, in which the amount of discounting depends on the states visited and on the objective. This definition extends the usual definition of discounted reward, and allows to capture the systems in which the value of different commodities diminish at different and variable rates. We establish results for twoprominent subclasses of the problem, namely state-discount models where the discount factors are only dependent on the state of the MDP (and independent of the objective), and reward-discount models where they are only dependent on the objective (but not on the state of the MDP). For the state-discount models we use a straightforward reduction to expected total reward and show that the problem whether a value is achievable can be solved in polynomial time.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/LG13010" target="_blank" >LG13010: Zastoupení ČR v European Research Consortium for Informatics and Mathematics</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2013
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Logic for Programming, Artificial Intelligence, and Reasoning
ISBN
9783642452208
ISSN
0302-9743
e-ISSN
—
Počet stran výsledku
15
Strana od-do
228-242
Název nakladatele
Springer
Místo vydání
Berlin, Heidelberg
Místo konání akce
Stellenbosch, South Africa
Datum konání akce
1. 1. 2013
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—