Policy gradient in Lipschitz Markov decision processes

From MaRDI portal

Publication:747252

Jump to:navigation, search

DOI10.1007/s10994-015-5484-1zbMath1354.90166OpenAlexW2046859786MaRDI QIDQ747252

Matteo Pirotta, Luca Bascetta, Marcello Restelli

Publication date: 23 October 2015

Published in: Machine Learning (Search for Journal in Brave)

Full work available at URL: https://doi.org/10.1007/s10994-015-5484-1

zbMATH Keywords

Lipschitz continuity Markov decision process reinforcement learning policy gradient algorithm

Mathematics Subject Classification ID

Markov and semi-Markov decision processes (90C40) Methods of reduced gradient type (90C52)

Related Items

Unnamed Item ⋮ A Small Gain Analysis of Single Timescale Actor Critic ⋮ Smoothing policies and safe policy gradients ⋮ Risk-averse optimization of reward-based coherent risk measures ⋮ On the sample complexity of actor-critic method for reinforcement learning with function approximation ⋮ Global Convergence of Policy Gradient Methods to (Almost) Locally Optimal Policies ⋮ Unnamed Item

Cites Work

This page was built for publication: Policy gradient in Lipschitz Markov decision processes

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:747252&oldid=12663496"