Control randomisation approach for policy gradient and application to reinforcement learning in optimal switching

DOI10.1007/s00245-024-10207-5MaRDI QIDQ6657507

Xavier Warin, Huyên Pham, Robert Denkert

Publication date: 6 January 2025

Published in: Applied Mathematics and Optimization (Search for Journal in Brave)

actor-critic algorithms optimal switching policy gradient control randomization reinforcement learning in continuous time

Mathematics Subject Classification ID

Artificial intelligence (68Txx) Model systems in control theory (93Cxx) Controllability, observability, and system structure (93Bxx)

Cites Work

This page was built for publication: Control randomisation approach for policy gradient and application to reinforcement learning in optimal switching