Explicit explore, exploit, or escape \((E^4)\): near-optimal safety-constrained reinforcement learning in polynomial time

DOI10.1007/s10994-022-06201-zarXiv2111.07395MaRDI QIDQ6106432

Publication date: 27 June 2023

Published in: Machine Learning (Search for Journal in Brave)

Full work available at URL: https://arxiv.org/abs/2111.07395

zbMATH Keywords

model-based reinforcement learning constrained Markov decision processes robust Markov decision processes safe exploration safe artificial intelligence

Mathematics Subject Classification ID

Learning and adaptive systems in artificial intelligence (68T05)

Cites Work

This page was built for publication: Explicit explore, exploit, or escape \((E^4)\): near-optimal safety-constrained reinforcement learning in polynomial time