Policy mirror descent for reinforcement learning: linear convergence, new sampling complexity, and generalized problem classes

From MaRDI portal

Publication:2687069

Jump to:navigation, search

DOI10.1007/s10107-022-01816-5OpenAlexW3127686539WikidataQ114852452 ScholiaQ114852452MaRDI QIDQ2687069

Guanghui Lan

Publication date: 1 March 2023

Published in: Mathematical Programming. Series A. Series B (Search for Journal in Brave)

Full work available at URL: https://arxiv.org/abs/2102.00135

Mathematics Subject Classification ID

Nonlinear programming (90C30) Stochastic programming (90C15) Markov and semi-Markov decision processes (90C40) Artificial intelligence (68Txx) Stochastic systems and control (93Exx)

Related Items (3)

Softmax policy gradient methods can take exponential time to converge ⋮ Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence ⋮ Accelerating Primal-Dual Methods for Regularized Markov Decision Processes

Cites Work

This page was built for publication: Policy mirror descent for reinforcement learning: linear convergence, new sampling complexity, and generalized problem classes

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:2687069&oldid=15523965"