Temporal-Difference Q-learning in Active Fault Diagnosis
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F16%3A43929230" target="_blank" >RIV/49777513:23520/16:43929230 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.1109/SYSTOL.2016.7739765" target="_blank" >http://dx.doi.org/10.1109/SYSTOL.2016.7739765</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/SYSTOL.2016.7739765" target="_blank" >10.1109/SYSTOL.2016.7739765</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Temporal-Difference Q-learning in Active Fault Diagnosis
Popis výsledku v původním jazyce
The paper deals with a novel design of an approximate active fault detector for discrete-time stochastic linear Markovian switching systems on the infinite-time horizon. The problem is formulated as an optimization problem with the aim to minimize a general discounted detection cost criterion. The proposed solution is inspired by approximate dynamic programming and reinforcement learning. The active fault detector is trained by a temporal-difference Q-learning algorithm with a linear parametric Q-function approximation adjusted to fit the true Q-function. The main advantage is that this approach is computationally less expensive than a temporal-difference learning with a value function.
Název v anglickém jazyce
Temporal-Difference Q-learning in Active Fault Diagnosis
Popis výsledku anglicky
The paper deals with a novel design of an approximate active fault detector for discrete-time stochastic linear Markovian switching systems on the infinite-time horizon. The problem is formulated as an optimization problem with the aim to minimize a general discounted detection cost criterion. The proposed solution is inspired by approximate dynamic programming and reinforcement learning. The active fault detector is trained by a temporal-difference Q-learning algorithm with a linear parametric Q-function approximation adjusted to fit the true Q-function. The main advantage is that this approach is computationally less expensive than a temporal-difference learning with a value function.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/LO1506" target="_blank" >LO1506: Podpora udržitelnosti centra NTIS - Nové technologie pro informační společnost</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2016
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the 2016 3rd Conference on Control and Fault-Tolerant Systems (SysTol)
ISBN
978-1-5090-0658-8
ISSN
2162-1195
e-ISSN
—
Počet stran výsledku
6
Strana od-do
287-292
Název nakladatele
IEEE
Místo vydání
New York
Místo konání akce
Barcelona, Spain
Datum konání akce
7. 9. 2016
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000391868600045