Deprecated: $wgMWOAuthSharedUserIDs=false is deprecated, set $wgMWOAuthSharedUserIDs=true, $wgMWOAuthSharedUserSource='local' instead [Called from MediaWiki\HookContainer\HookContainer::run in /var/www/html/w/includes/HookContainer/HookContainer.php at line 135] in /var/www/html/w/includes/Debug/MWDebug.php on line 372
Reward-weighted regression with sample reuse for direct policy search in reinforcement learning - MaRDI portal

Reward-weighted regression with sample reuse for direct policy search in reinforcement learning (Q2887009)

From MaRDI portal

Jump to:navigation, search

This is the item page for this Wikibase entity, intended for internal use and editing purposes.

Please use this page instead for the normal view: Reward-weighted regression with sample reuse for direct policy search in reinforcement learning

scientific article; zbMATH DE number 6035304

Language	Label	Description	Also known as
English	Reward-weighted regression with sample reuse for direct policy search in reinforcement learning	scientific article; zbMATH DE number 6035304

Statements

scholarly article

0 references

Hirotaka Hachiya

0 references

0 references

Masashi Sugiyama

0 references

Neural Computation

0 references

publication date

15 May 2012

0 references

describes a project that uses

Open Dynamics Engine

0 references

MaRDI profile type

0 references

Efficient exploration through active learning for value function approximation in reinforcement learning

0 references

Using Expectation-Maximization for Reinforcement Learning

0 references

Adaptive importance sampling for value function approximation in off-policy reinforcement learning

0 references

Improving predictive inference under covariate shift by weighting the log-likelihood function

0 references

Trading Variance Reduction with Unbiasedness: The Regularized Subspace Information Criterion for Robust Model Selection in Kernel Regression

0 references

Input-dependent estimation of generalization error under covariate shift

0 references

Real-time reinforcement learning by sequential actor-critics and experience replay

0 references

full work available at URL

https://doi.org/10.1162/neco_a_00199

0 references

Recommended article

Efficient Sample Reuse in Policy Gradients with Parameter-Based Exploration

Similarity Score

0.885184

Recommender Run

Recommender Run 3

0 references

Reinforcement Learning in Sparse-Reward Environments With Hindsight Policy Gradients

Similarity Score

0.8521509

Recommender Run

Recommender Run 3

0 references

Recurrent policy gradients

Similarity Score

0.84926087

Recommender Run

Recommender Run 3

0 references

Breaking the sample complexity barrier to regret-optimal model-free reinforcement learning

Similarity Score

0.84471345

Recommender Run

Recommender Run 3

0 references

Similarity Score

0.8434385

Recommender Run

Recommender Run 3

0 references

Similarity Score

0.84207124

Recommender Run

Recommender Run 3

0 references

Reward-weighted regression with sample reuse for direct policy search in reinforcement learning (English)

0 references

Identifiers

zbMATH Open document ID

0 references

Mathematics Subject Classification ID

0 references

zbMATH DE Number

0 references

0 references

0 references

10.1162/NECO_A_00199

0 references

Sitelinks

Mathematics(1 entry)

mardi Publication:2887009

Retrieved from "https://portal.mardi4nfdi.de/w/index.php?title=Item:Q2887009&oldid=42448429"