Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Praktická aplikace Q-učení

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26210%2F04%3APU43468" target="_blank" >RIV/00216305:26210/04:PU43468 - isvavai.cz</a>

  • Nalezeny alternativní kódy

    RIV/61388998:_____/04:00103685

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Continuous Q-learning application

  • Popis výsledku v původním jazyce

    Standard algorithm of Q-Learning is limited by discrete states and actions and Q-function is usually represented as discrete table. To avoid this obstacle and extend the use of Q-learning for continuous states and actions the algorithm must be modified and such modification is presented in the paper. Straightforward way is to replace discrete table with suitable approximator. A number of approximators can be used, with respect to memory and computational requirements the local approximator is particularrly favorable. We have used Locally Weighted Regression (LWR) algorithm. The paper discusses advantages and disadvantages of modified algorithm demonstrated on simple control task.

  • Název v anglickém jazyce

    Continuous Q-learning application

  • Popis výsledku anglicky

    Standard algorithm of Q-Learning is limited by discrete states and actions and Q-function is usually represented as discrete table. To avoid this obstacle and extend the use of Q-learning for continuous states and actions the algorithm must be modified and such modification is presented in the paper. Straightforward way is to replace discrete table with suitable approximator. A number of approximators can be used, with respect to memory and computational requirements the local approximator is particularrly favorable. We have used Locally Weighted Regression (LWR) algorithm. The paper discusses advantages and disadvantages of modified algorithm demonstrated on simple control task.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    BC - Teorie a systémy řízení

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

  • Návaznosti

    Z - Vyzkumny zamer (s odkazem do CEZ)

Ostatní

  • Rok uplatnění

    2004

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Engineering Mechanics 2004

  • ISBN

    80-85918-88-9

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    2

  • Strana od-do

    307-308

  • Název nakladatele

    Institute of Thermonechanics Academy of Sciences of the Czech Republic, Prague 2004

  • Místo vydání

    Prague

  • Místo konání akce

    Svratka

  • Datum konání akce

    10. 5. 2004

  • Typ akce podle státní příslušnosti

    CST - Celostátní akce

  • Kód UT WoS článku