Praktická aplikace Q-učení
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26210%2F04%3APU43468" target="_blank" >RIV/00216305:26210/04:PU43468 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/61388998:_____/04:00103685
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Continuous Q-learning application
Popis výsledku v původním jazyce
Standard algorithm of Q-Learning is limited by discrete states and actions and Q-function is usually represented as discrete table. To avoid this obstacle and extend the use of Q-learning for continuous states and actions the algorithm must be modified and such modification is presented in the paper. Straightforward way is to replace discrete table with suitable approximator. A number of approximators can be used, with respect to memory and computational requirements the local approximator is particularrly favorable. We have used Locally Weighted Regression (LWR) algorithm. The paper discusses advantages and disadvantages of modified algorithm demonstrated on simple control task.
Název v anglickém jazyce
Continuous Q-learning application
Popis výsledku anglicky
Standard algorithm of Q-Learning is limited by discrete states and actions and Q-function is usually represented as discrete table. To avoid this obstacle and extend the use of Q-learning for continuous states and actions the algorithm must be modified and such modification is presented in the paper. Straightforward way is to replace discrete table with suitable approximator. A number of approximators can be used, with respect to memory and computational requirements the local approximator is particularrly favorable. We have used Locally Weighted Regression (LWR) algorithm. The paper discusses advantages and disadvantages of modified algorithm demonstrated on simple control task.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
BC - Teorie a systémy řízení
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2004
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Engineering Mechanics 2004
ISBN
80-85918-88-9
ISSN
—
e-ISSN
—
Počet stran výsledku
2
Strana od-do
307-308
Název nakladatele
Institute of Thermonechanics Academy of Sciences of the Czech Republic, Prague 2004
Místo vydání
Prague
Místo konání akce
Svratka
Datum konání akce
10. 5. 2004
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—