Deprecated: $wgMWOAuthSharedUserIDs=false is deprecated, set $wgMWOAuthSharedUserIDs=true, $wgMWOAuthSharedUserSource='local' instead [Called from MediaWiki\HookContainer\HookContainer::run in /var/www/html/w/includes/HookContainer/HookContainer.php at line 135] in /var/www/html/w/includes/Debug/MWDebug.php on line 372
scientific article; zbMATH DE number 7370614 - MaRDI portal

scientific article; zbMATH DE number 7370614

From MaRDI portal

Publication:4999027

Jump to:navigation, search

MaRDI QIDQ4999027

Alberto Maria Metelli, Daniele Calandriello, Matteo Pirotta, Marcello Restelli

Publication date: 9 July 2021

Full work available at URL: https://jmlr.csail.mit.edu/papers/v22/19-707.html

Title: zbMATH Open Web Interface contents unavailable due to conflicting licenses.

zbMATH Keywords

Markov decision process reinforcement learning approximate dynamic programming approximate policy iteration policy chattering policy oscillation

Mathematics Subject Classification ID

Learning and adaptive systems in artificial intelligence (68T05)

Related Items (2)

Smoothing policies and safe policy gradients ⋮ Efficient reductions in cyclotomic rings -- application to Ring LWE based FHE schemes

Cites Work

This page was built for publication:

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:4999027&oldid=19452565"