An online actor-critic algorithm with function approximation for constrained Markov decision processes

From MaRDI portal

Publication:438776

Jump to:navigation, search

DOI10.1007/s10957-012-9989-5zbMath1262.90189OpenAlexW2073314543MaRDI QIDQ438776

J. Herrera, H. S. Yoon

Publication date: 31 July 2012

Published in: Journal of Optimization Theory and Applications (Search for Journal in Brave)

Full work available at URL: https://doi.org/10.1007/s10957-012-9989-5

zbMATH Keywords

function approximation actor critic algorithm constrained Markov decision process long-run average cost criterion

Mathematics Subject Classification ID

Markov chains (discrete-time Markov processes on discrete state spaces) (60J10) Markov and semi-Markov decision processes (90C40)

Related Items

Event-based optimization approach for solving stochastic decision problems with probabilistic constraint, Multiscale Q-learning with linear function approximation, Queueing Network Controls via Deep Reinforcement Learning, Suboptimal control for nonlinear systems with disturbance via integral sliding mode control and policy iteration, Variance-constrained actor-critic algorithms for discounted and average reward MDPs, Optimal deterministic controller synthesis from steady-state distributions, Risk-Constrained Reinforcement Learning with Percentile Risk Criteria

Cites Work

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:438776&oldid=12314946"