Learning Explainable and Better Performing Representations of POMDP Strategies
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14330%2F24%3A00139094" target="_blank" >RIV/00216224:14330/24:00139094 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.1007/978-3-031-57249-4_15" target="_blank" >http://dx.doi.org/10.1007/978-3-031-57249-4_15</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-031-57249-4_15" target="_blank" >10.1007/978-3-031-57249-4_15</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Learning Explainable and Better Performing Representations of POMDP Strategies
Popis výsledku v původním jazyce
Strategies for partially observable Markov decision processes (POMDP) typically require memory. One way to represent this memory is via automata. We present a method to learn an automaton representation of a strategy using a modification of the L∗-algorithm. Compared to the tabular representation of a strategy, the resulting automaton is dramatically smaller and thus also more explainable. Moreover, in the learning process, our heuristics may even improve the strategy’s performance. We compare our approach to an existing approach that synthesizes an automaton directly from the POMDP, thereby solving it. Our experiments show that our approach can lead to significant improvements in the size and quality of the resulting strategy representations.
Název v anglickém jazyce
Learning Explainable and Better Performing Representations of POMDP Strategies
Popis výsledku anglicky
Strategies for partially observable Markov decision processes (POMDP) typically require memory. One way to represent this memory is via automata. We present a method to learn an automaton representation of a strategy using a modification of the L∗-algorithm. Compared to the tabular representation of a strategy, the resulting automaton is dramatically smaller and thus also more explainable. Moreover, in the learning process, our heuristics may even improve the strategy’s performance. We compare our approach to an existing approach that synthesizes an automaton directly from the POMDP, thereby solving it. Our experiments show that our approach can lead to significant improvements in the size and quality of the resulting strategy representations.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
TACAS 2024, 30th International Conference on Tools and Algorithms for the Construction and Analysis of Systems
ISBN
9783031572487
ISSN
0302-9743
e-ISSN
1611-3349
Počet stran výsledku
21
Strana od-do
299-319
Název nakladatele
Springer
Místo vydání
Luxembourg City, Luxembourg
Místo konání akce
Luxembourg City, Luxembourg
Datum konání akce
1. 1. 2024
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
001284179800015