Deprecated: $wgMWOAuthSharedUserIDs=false is deprecated, set $wgMWOAuthSharedUserIDs=true, $wgMWOAuthSharedUserSource='local' instead [Called from MediaWiki\HookContainer\HookContainer::run in /var/www/html/w/includes/HookContainer/HookContainer.php at line 135] in /var/www/html/w/includes/Debug/MWDebug.php on line 372
Policy mirror descent inherently explores action space - MaRDI portal

Policy mirror descent inherently explores action space

From MaRDI portal

Publication:6663113

Jump to:navigation, search

DOI10.1137/23m1560215MaRDI QIDQ6663113

Guanghui Lan, Yan Li

Publication date: 14 January 2025

Published in: SIAM Journal on Optimization (Search for Journal in Brave)

zbMATH Keywords

Markov decision process exploration mirror descent sample complexity stochastic policy gradient

Mathematics Subject Classification ID

Analysis of algorithms and problem complexity (68Q25) Nonconvex programming, global optimization (90C26) Stochastic programming (90C15) Markov and semi-Markov decision processes (90C40)

This page was built for publication: Policy mirror descent inherently explores action space

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:6663113&oldid=40243829"