Logarithmic regret bounds for continuous-time average-reward Markov decision processes

From MaRDI portal

Publication:6608781

Jump to:navigation, search

DOI10.1137/23m1584101MaRDI QIDQ6608781

Xuefeng Gao, Xun Yu Zhou

Publication date: 20 September 2024

Published in: SIAM Journal on Control and Optimization (Search for Journal in Brave)

zbMATH Keywords

average reward continuous-time Markov decision processes stochastic comparison instance-dependent regret bounds upper confidence reinforcement learning

Mathematics Subject Classification ID

Markov and semi-Markov decision processes (90C40) Continuous-time Markov processes on discrete state spaces (60J27)

Cites Work

This page was built for publication: Logarithmic regret bounds for continuous-time average-reward Markov decision processes

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Publication:6608781&oldid=40160917"