"Off-Policy"的相关文档

标签“Off-Policy”的相关文档，共32条

Adaptive Estimator Selection for Off-Policy Evaluation
AdaptiveEstimatorSelectionforOff-PolicyEvaluationYiSu1PavithraSrinath2AkshayKrishnamurthy2Abstracthighqualityestimationashasbeendemonstratedinrecentempiricalstudies(Voloshinetal.,2019).However,data...
Adaptive for Selection Off-Policy Evaluation
2023-11-14 21:42:581227397.75 KB23
下载文档
Accountable Off-Policy Evaluation via a Kernelized Bellman Statistics
AccountableOff-PolicyEvaluationWithKernelBellmanStatisticsYihaoFeng1TongzhengRen1ZiyangTang1QiangLiu1Abstractdecisions.Off-PolicyevaluationplaysanimportantroleinImportancesampling(IS)providesabasic...
via Off-Policy Evaluation Bellman Kernelized
2023-11-14 21:42:561995792.13 KB29
下载文档
Trajectory-Based Off-Policy Deep Reinforcement Learning
Trajectory-BasedOff-PolicyDeepReinforcementLearningAndreasDoerr123MichaelVolpp1MarcToussaint3SebastianTrimpe2ChristianDaniel1Abstractstandardalgorithmsarevastlydata-inefﬁcientandrelyonmillionsofda...
Learning Reinforcement Deep Off-Policy Trajectory-Based
2023-11-13 14:48:511404580.76 KB27
下载文档
Off-Policy Deep Reinforcement Learning without Exploration
Off-PolicyDeepReinforcementLearningwithoutExplorationScottFujimoto12DavidMeger12DoinaPrecup12Abstractrequirefurtherinteractionswiththeenvironmenttocom-pensate(Hesteretal.,2017;Sunetal.,2018;Chenget...
Learning Reinforcement Deep Off-Policy without
2023-11-13 14:48:01954900.82 KB19
下载文档
More Efficient Off-Policy Evaluation through Regularized Targeted Learning
MoreEfﬁcientOff-PolicyEvaluationthroughRegularizedTargetedLearningAure´lienF.Bibaut1IvanaMalenica1NikosVlassis2MarkJ.vanderLaan1Abstractinference,andhasledtomanymethodologicaldevelop-ments.Oneoft...
Efficient through Off-Policy Evaluation Regularized
2023-11-13 14:47:541032874.6 KB13
下载文档
Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables
EfﬁcientOff-PolicyMeta-ReinforcementLearningviaProbabilisticContextVariablesKateRakelly1AurickZhou1DeirdreQuillen1ChelseaFinn1SergeyLevine1AbstractFortunately,manyoftheproblemswewouldlikeourau-ton...
Learning Efficient via Probabilistic Off-Policy
2023-11-13 14:47:011589822.69 KB19
下载文档
Counterfactual Off-Policy Evaluation with Gumbel-Max Structural Causal Models
CounterfactualOff-PolicyEvaluationwithGumbel-MaxStructuralCausalModelsMichaelOberst1DavidSontag1Abstractoptimistically,arethereliveswhichcouldhavebeensaved?Thisquestionbecomesincreasinglyrelevant,w...
Structural with Off-Policy Evaluation Causal
2023-11-13 14:46:4610121.42 MB3
下载文档
Combining parametric and nonparametric models for Off-Policy evaluation
CombiningParametricandNonparametricModelsforOff-PolicyEvaluationOmerGottesman1YaoLiu2ScottSussex1EmmaBrunskill2FinaleDoshi-Velez1Abstractjectoriesundertheevaluationpolicyviastitchingtogetheractualt...
for Models and Combining Off-Policy
2023-11-13 14:46:391615804.99 KB3
下载文档
Soft Actor-Critic Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
SoftActor-Critic:Off-PolicyMaximumEntropyDeepReinforcementLearningwithaStochasticActorTuomasHaarnoja1AurickZhou1PieterAbbeel1SergeyLevine1Abstractnetworksholdsthepromiseofautomatingawiderangeofdeci...
Reinforcement Deep Off-Policy Maximum Entropy
2023-11-13 12:00:4018762.3 MB14
下载文档
More Robust Doubly Robust Off-Policy Evaluation
MoreRobustDoublyRobustOff-PolicyEvaluationMehrdadFarajtabar1YinlamChow2MohammadGhavamzadeh2AbstractSwaminathanetal.2017)andreinforcementlearning(RL)(e.g.,Precupetal.2000a;2001;Paduraru2013;MahmoodW...
Robust Off-Policy Evaluation Doubly More
2023-11-13 12:00:129941.02 MB7
下载文档
Optimal and Adaptive Off-Policy Evaluation in Contextual Bandits
OptimalandAdaptiveOff-PolicyEvaluationinContextualBanditsYu-XiangWang1AlekhAgarwal2MiroslavDudík2Abstractnotscaletoevaluatingmanydifferenttargetpolicies.WestudytheOff-Policyevaluationproblem—Off-...
Adaptive and in Optimal Off-Policy
2023-11-12 20:44:581385390.4 KB9
下载文档
Consistent On-Line Off-Policy Evaluation
ConsistentOn-LineOff-PolicyEvaluationAssafHallak1ShieMannor1Abstractthetestingpopulation,andsub-optimalpoliciescanhavelifethreateningeffects(Hochbergetal.,2016).OPEcanTheproblemofon-lineOff-Policye...
Consistent On-Line Off-Policy Evaluation
2023-11-12 20:44:0315171.38 MB6
下载文档

首页上页 1 2 下页尾页