Deprecated: $wgMWOAuthSharedUserIDs=false is deprecated, set $wgMWOAuthSharedUserIDs=true, $wgMWOAuthSharedUserSource='local' instead [Called from MediaWiki\HookContainer\HookContainer::run in /var/www/html/w/includes/HookContainer/HookContainer.php at line 135] in /var/www/html/w/includes/Debug/MWDebug.php on line 372
scientific article - MaRDI portal

scientific article

From MaRDI portal

Publication:3093369

Jump to:navigation, search

zbMath1222.68381MaRDI QIDQ3093369

Rémi Munos

Publication date: 12 October 2011

Full work available at URL: http://www.jmlr.org/papers/v7/munos06b.html

Title: zbMATH Open Web Interface contents unavailable due to conflicting licenses.

zbMATH Keywords

optimal control parametric optimization gradient estimate sensitivity analysis reinforcement learning likelihood ratio method policy search pathwise derivation

Mathematics Subject Classification ID

Learning and adaptive systems in artificial intelligence (68T05) Optimal stochastic control (93E20) Problem solving in the context of artificial intelligence (heuristics, search strategies, etc.) (68T20)

Related Items (5)

Unnamed Item ⋮ Approximate Q Learning for Controlled Diffusion Processes and Its Near Optimality ⋮ Linear Convergence of a Policy Gradient Method for Some Finite Horizon Continuous Time Control Problems ⋮ Unnamed Item ⋮ Inhomogeneous deep Q-network for time sensitive applications

This page was built for publication:

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:3093369&oldid=16178062"