Policy learning for time-bounded reachability in continuous-time Markov decision processes via doubly-stochastic gradient ascent (Q1693106)

scientific article

Language	Label	Description	Also known as
English	Policy learning for time-bounded reachability in continuous-time Markov decision processes via doubly-stochastic gradient ascent	scientific article

Statements

instance of

scholarly article

0 references

title

Policy learning for time-bounded reachability in continuous-time Markov decision processes via doubly-stochastic gradient ascent (English)

0 references

0 references

0 references

0 references

0 references

0 references

11 January 2018

0 references

full work available at URL

https://arxiv.org/abs/1605.09703

0 references

zbMATH Keywords

continuous-time Markov decision processes

0 references

statistical model checking

0 references

unbiased estimation

0 references

nonlinear population model

0 references

MaRDI profile type

MaRDI publication profile

0 references

Identifiers

zbMATH Open document ID

1380.65024

0 references

DOI

10.1007/978-3-319-43425-4_17

0 references

Mathematics Subject Classification ID

0 references

0 references

0 references

0 references

0 references

0 references

Sitelinks

Mathematics(1 entry)

mardi Publication:1693106