Deprecated: $wgMWOAuthSharedUserIDs=false is deprecated, set $wgMWOAuthSharedUserIDs=true, $wgMWOAuthSharedUserSource='local' instead [Called from MediaWiki\HookContainer\HookContainer::run in /var/www/html/w/includes/HookContainer/HookContainer.php at line 135] in /var/www/html/w/includes/Debug/MWDebug.php on line 372
Global Convergence of Policy Gradient Methods to (Almost) Locally Optimal Policies - MaRDI portal

Global Convergence of Policy Gradient Methods to (Almost) Locally Optimal Policies

From MaRDI portal

Publication:5139670

Jump to:navigation, search

DOI10.1137/19M1288012zbMath1451.93379arXiv1906.08383OpenAlexW3109546547MaRDI QIDQ5139670

Tamer Başar, Alec Koppel, Kaiqing Zhang, Hao Zhu

Publication date: 10 December 2020

Published in: SIAM Journal on Control and Optimization (Search for Journal in Brave)

Full work available at URL: https://arxiv.org/abs/1906.08383

zbMATH Keywords

global convergence nonconvex optimization reinforcement learning policy gradient methods

Mathematics Subject Classification ID

Optimal stochastic control (93E20) Stochastic learning and adaptive control (93E35) Stochastic systems in control theory (general) (93E03)

Related Items

Some Limit Properties of Markov Chains Induced by Recursive Stochastic Algorithms, A Stochastic Trust-Region Framework for Policy Optimization, A Small Gain Analysis of Single Timescale Actor Critic, Risk-Sensitive Reinforcement Learning via Policy Gradient Search, Fast Global Convergence of Natural Policy Gradient Methods with Entropy Regularization, Softmax policy gradient methods can take exponential time to converge, On the sample complexity of actor-critic method for reinforcement learning with function approximation, Geometry and convergence of natural policy gradient methods, Recent advances in reinforcement learning in finance, Enhance load forecastability: optimize data sampling policy by reinforcing user behaviors, Smoothed functional-based gradient algorithms for off-policy reinforcement learning: a non-asymptotic viewpoint, Multi-agent reinforcement learning: a selective overview of theories and algorithms

Uses Software

MentorNet

Cites Work

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:5139670&oldid=19678802"