An actor-critic algorithm with function approximation for discounted cost constrained Markov decision processes

From MaRDI portal

Publication:616967

Jump to:navigation, search

DOI10.1016/j.sysconle.2010.08.013zbMath1209.90344OpenAlexW2161270100MaRDI QIDQ616967

Shalabh Bhatnagar

Publication date: 12 January 2011

Published in: Systems \& Control Letters (Search for Journal in Brave)

Full work available at URL: https://doi.org/10.1016/j.sysconle.2010.08.013

zbMATH Keywords

function approximation actor-critic algorithm constrained Markov decision processes infinite horizon discounted cost criterion simultaneous perturbation stochastic approximation

Mathematics Subject Classification ID

Markov and semi-Markov decision processes (90C40)

Related Items

Constrained Markov decision processes with first passage criteria, Dimension reduction based adaptive dynamic programming for optimal control of discrete-time nonlinear control-affine systems, Risk-Sensitive Reinforcement Learning via Policy Gradient Search, Variance-constrained actor-critic algorithms for discounted and average reward MDPs, Recent advances in reinforcement learning in finance, An online actor-critic algorithm with function approximation for constrained Markov decision processes, Global Convergence of Policy Gradient Methods to (Almost) Locally Optimal Policies, Smoothed functional-based gradient algorithms for off-policy reinforcement learning: a non-asymptotic viewpoint, Risk-Constrained Reinforcement Learning with Percentile Risk Criteria, The Borkar-Meyn theorem for asynchronous stochastic approximations

Cites Work

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:616967&oldid=12508774"