Contractivity of Bellman operator in risk averse dynamic programming with infinite horizon
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F67985556%3A_____%2F23%3A00567218" target="_blank" >RIV/67985556:_____/23:00567218 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/00216208:11320/23:10472041
Výsledek na webu
<a href="https://www.sciencedirect.com/science/article/pii/S0167637723000081?via%3Dihub" target="_blank" >https://www.sciencedirect.com/science/article/pii/S0167637723000081?via%3Dihub</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1016/j.orl.2023.01.008" target="_blank" >10.1016/j.orl.2023.01.008</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Contractivity of Bellman operator in risk averse dynamic programming with infinite horizon
Popis výsledku v původním jazyce
The paper deals with a risk averse dynamic programming problem with infinite horizon. First, the required assumptions are formulated to have the problem well defined. Then the Bellman equation is derived, which may be also seen as a standalone reinforcement learning problem. The fact that the Bellman operator is contraction is proved, guaranteeing convergence of various solution algorithms used for dynamic programming as well as reinforcement learning problems, which we demonstrate on the value iteration and the policy iteration algorithms.
Název v anglickém jazyce
Contractivity of Bellman operator in risk averse dynamic programming with infinite horizon
Popis výsledku anglicky
The paper deals with a risk averse dynamic programming problem with infinite horizon. First, the required assumptions are formulated to have the problem well defined. Then the Bellman equation is derived, which may be also seen as a standalone reinforcement learning problem. The fact that the Bellman operator is contraction is proved, guaranteeing convergence of various solution algorithms used for dynamic programming as well as reinforcement learning problems, which we demonstrate on the value iteration and the policy iteration algorithms.
Klasifikace
Druh
J<sub>imp</sub> - Článek v periodiku v databázi Web of Science
CEP obor
—
OECD FORD obor
10103 - Statistics and probability
Návaznosti výsledku
Projekt
<a href="/cs/project/GA19-11062S" target="_blank" >GA19-11062S: Arbitráž na trzích s limitními objednávkami a omezeně racionálními agenty</a><br>
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Operations Research Letters
ISSN
0167-6377
e-ISSN
1872-7468
Svazek periodika
51
Číslo periodika v rámci svazku
2
Stát vydavatele periodika
NL - Nizozemsko
Počet stran výsledku
4
Strana od-do
133-136
Kód UT WoS článku
000960827100001
EID výsledku v databázi Scopus
2-s2.0-85146315332