Deprecated: $wgMWOAuthSharedUserIDs=false is deprecated, set $wgMWOAuthSharedUserIDs=true, $wgMWOAuthSharedUserSource='local' instead [Called from MediaWiki\HookContainer\HookContainer::run in /var/www/html/w/includes/HookContainer/HookContainer.php at line 135] in /var/www/html/w/includes/Debug/MWDebug.php on line 372
scientific article; zbMATH DE number 7014219 - MaRDI portal

scientific article; zbMATH DE number 7014219

From MaRDI portal

Publication:4617639

Jump to:navigation, search

zbMath1405.68307arXiv1803.01626MaRDI QIDQ4617639

Mohammad Talebi, Odalric-Ambrym Maillard

Publication date: 6 February 2019

Full work available at URL: https://arxiv.org/abs/1803.01626

Title: zbMATH Open Web Interface contents unavailable due to conflicting licenses.

zbMATH Keywords

Markov decision processes concentration inequalities regret minimization undiscounted reinforcement learning Bellman optimality

Mathematics Subject Classification ID

Learning and adaptive systems in artificial intelligence (68T05) Markov and semi-Markov decision processes (90C40)

Related Items (2)

Temporal concatenation for Markov decision processes ⋮ Settling the sample complexity of model-based offline reinforcement learning

This page was built for publication:

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:4617639&oldid=18789885"