Optimistic reinforcement learning by forward Kullback-Leibler divergence optimization (Q6077011)

scientific article; zbMATH DE number 7751345

Language	Label	Description	Also known as
English	Optimistic reinforcement learning by forward Kullback-Leibler divergence optimization	scientific article; zbMATH DE number 7751345

Statements

instance of

scholarly article

0 references

title

Optimistic reinforcement learning by forward Kullback-Leibler divergence optimization (English)

0 references

0 references

0 references

17 October 2023

0 references

full work available at URL

https://arxiv.org/abs/2105.12991

0 references

zbMATH Keywords

reinforcement learning

0 references

control as probabilistic inference

0 references

Kullback-Leibler divergence

0 references

optimistic learning

0 references

MaRDI profile type

MaRDI publication profile

0 references

0 references

0 references

0 references

0 references

Q( $$\lambda $$ ) with Off-Policy Corrections

0 references

TD-regularized actor-critic methods

0 references

Q5744806

0 references

Q4626283

0 references

Identifiers

arXiv ID

2105.12991

0 references

Mathematics Subject Classification ID

0 references

0 references

0 references

10.1016/J.NEUNET.2022.04.021

0 references

Sitelinks

Mathematics(1 entry)

mardi Publication:6077011