All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Continuous Q-learning application

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26210%2F04%3APU43468" target="_blank" >RIV/00216305:26210/04:PU43468 - isvavai.cz</a>

  • Alternative codes found

    RIV/61388998:_____/04:00103685

  • Result on the web

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    angličtina

  • Original language name

    Continuous Q-learning application

  • Original language description

    Standard algorithm of Q-Learning is limited by discrete states and actions and Q-function is usually represented as discrete table. To avoid this obstacle and extend the use of Q-learning for continuous states and actions the algorithm must be modified and such modification is presented in the paper. Straightforward way is to replace discrete table with suitable approximator. A number of approximators can be used, with respect to memory and computational requirements the local approximator is particularrly favorable. We have used Locally Weighted Regression (LWR) algorithm. The paper discusses advantages and disadvantages of modified algorithm demonstrated on simple control task.

  • Czech name

    Praktická aplikace Q-učení

  • Czech description

    Standardní algoritmus metody Q-učení je omezen používáním diskrétních stavů a akcí. V tomto případě je Q-funkce representována jako diskrétní tabulka. Metoda popisovaná v tomto příspěvku se snaží obejít problém s diskretizací tím, že je od počátku navržena jako spojitá. Diskrétní tabulka Q-hodnot je nahrazena vhodným aproximátorem. V tomto příspěvku hodnotíme výhody a nevýhody spojitého Q-učení oproti jeho diskrétní variantě.

Classification

  • Type

    D - Article in proceedings

  • CEP classification

    BC - Theory and management systems

  • OECD FORD branch

Result continuities

  • Project

  • Continuities

    Z - Vyzkumny zamer (s odkazem do CEZ)

Others

  • Publication year

    2004

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Article name in the collection

    Engineering Mechanics 2004

  • ISBN

    80-85918-88-9

  • ISSN

  • e-ISSN

  • Number of pages

    2

  • Pages from-to

    307-308

  • Publisher name

    Institute of Thermonechanics Academy of Sciences of the Czech Republic, Prague 2004

  • Place of publication

    Prague

  • Event location

    Svratka

  • Event date

    May 10, 2004

  • Type of event by nationality

    CST - Celostátní akce

  • UT code for WoS article