Reinforcement learning for spoken dialogue systems using off-policy natural gradient method
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F12%3A10194751" target="_blank" >RIV/00216208:11320/12:10194751 - isvavai.cz</a>
Výsledek na webu
<a href="http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6424161" target="_blank" >http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6424161</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Reinforcement learning for spoken dialogue systems using off-policy natural gradient method
Popis výsledku v původním jazyce
Reinforcement learning methods have been successfully used to optimise dialogue strategies in statistical dialogue systems. Typically, reinforcement techniques learn on-policy i.e., the dialogue strategy is updated online while the system is interactingwith a user. An alternative to this approach is off-policy reinforcement learning, which estimates an optimal dialogue strategy offline from a fixed corpus of previously collected dialogues. This paper proposes a novel off-policy reinforcement learning method based on natural policy gradients and importance sampling. The algorithm is evaluated on a spoken dialogue system in the tourist information domain. The experiments indicate that the proposed method learns a dialogue strategy, which significantly outperforms the baseline handcrafted dialogue policy
Název v anglickém jazyce
Reinforcement learning for spoken dialogue systems using off-policy natural gradient method
Popis výsledku anglicky
Reinforcement learning methods have been successfully used to optimise dialogue strategies in statistical dialogue systems. Typically, reinforcement techniques learn on-policy i.e., the dialogue strategy is updated online while the system is interactingwith a user. An alternative to this approach is off-policy reinforcement learning, which estimates an optimal dialogue strategy offline from a fixed corpus of previously collected dialogues. This paper proposes a novel off-policy reinforcement learning method based on natural policy gradients and importance sampling. The algorithm is evaluated on a spoken dialogue system in the tourist information domain. The experiments indicate that the proposed method learns a dialogue strategy, which significantly outperforms the baseline handcrafted dialogue policy
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/LK11221" target="_blank" >LK11221: Vývoj metod pro návrh statistických mluvených dialogových systémů</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2012
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
IEEE SLT '12: Proc. IEEE Spoken Language Technology Workshop
ISBN
978-1-4673-5126-3
ISSN
—
e-ISSN
—
Počet stran výsledku
6
Strana od-do
7-12
Název nakladatele
IEEE
Místo vydání
Miami, FL, USA
Místo konání akce
Miami, FL, USA
Datum konání akce
2. 12. 2012
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—