"Off-Policy"的相关文档 - 文库宝

开通VIP限时优惠

|

登录 | 注册

标签“Off-Policy”的相关文档，共32条

State Relevance for Off-Policy Evaluation
StateRelevanceforOff-PolicyEvaluationSimonP.Shen1YechengJasonMa2OmerGottesman3FinaleDoshi-Velez1Abstractimportantasmanydomainshavetrajectorieswithdifferentlengths:inhealthsettings,patients’lengtho...
for Off-Policy Evaluation State Relevance
2023-11-16 19:41:5714116.09 MB29
下载文档
Optimal Off-Policy Evaluation from Multiple Logging Policies
OptimalOff-PolicyEvaluationfromMultipleLoggingPoliciesNathanKallus1YutaSaito1MasatoshiUehara1AbstractInmostoftheabovestudies,theobservationsusedtoevalu-ateanewpolicyareassumedgeneratedbyasinglelogg...
from Optimal Multiple Off-Policy Evaluation
2023-11-16 19:28:251447434.3 KB23
下载文档
Off-Policy Confidence Sequences
Off-PolicyConﬁdenceSequencesNikosKarampatziakis1PaulMineiro2AadityaRamdas3Abstractthattheprobabilitythattheyeverexcludethetruevalueisboundedbyaprespeciﬁedquantity.Inotherwords,theyWedevelopconﬁd...
Off-Policy Confidence Sequences
2023-11-16 19:15:411248680.4 KB3
下载文档
Learning Routines for Effective Off-Policy Reinforcement Learning
LearningRoutinesforEffectiveOff-PolicyReinforcementLearningEdoardoCetin1OyaCeliktutan1Abstractengineeringandareoftenquiteinﬂuentialontheperfor-mance(Mahmoodetal.,2018).AlgorithmsthatlearnalsoThepe...
Learning for Reinforcement Off-Policy Effective
2023-11-16 19:05:031306754.99 KB23
下载文档
Finite-Sample Analysis of Off-Policy Natural Actor-Critic Algorithm
Finite-SampleAnalysisofOff-PolicyNaturalActor-CriticAlgorithmSajadKhodadadian∗1ZaiweiChen∗2SivaThejaMaguluri1AbstractAnACalgorithmcanbethoughtasageneralizedpolicyiter-ation(Puterman,1995),andcons...
of Algorithm Analysis Off-Policy Natural
2023-11-16 18:38:121504508.18 KB19
下载文档
Deeply-Debiased Off-Policy Interval Estimation
Deeply-DebiasedOff-PolicyIntervalEstimationChengchunShi1RunzheWan2VictorChernozhukov3RuiSong2Abstractvalue,itiscrucialtoconstructaconﬁdenceinterval(CI)thatquantiﬁestheuncertaintyofthevalueestimat...
Estimation Off-Policy Interval Deeply-Debiased
2023-11-16 18:31:021106475.06 KB24
下载文档
Data-efficient Hindsight Off-Policy Option Learning
Data-efﬁcientHindsightOff-PolicyOptionLearningMarkusWulfmeier1DushyantRao1RolandHafner1ThomasLampe1AbbasAbdolmaleki1TimHertweck1MichaelNeunert1DhruvaTirumala1NoahSiegel1NicolasHeess1MartinRiedmill...
Learning Off-Policy Data-Efficient Option Hindsight
2023-11-16 18:30:569953.01 MB8
下载文档
Doubly Robust Off-Policy Actor-Critic Convergence and Optimality
DoublyRobustOff-PolicyActor-Critic:ConvergenceandOptimalityTengyuXu1ZhuoranYang2ZhaoranWang3YingbinLiang1Abstract(Haarnojaetal.,2018),etc.However,thesesuccessesusu-allyrelyontheaccesstoon-policysam...
and Convergence Robust Off-Policy Doubly
2023-11-16 18:30:491221461.66 KB25
下载文档
Average-Reward Off-Policy Policy Evaluation with Function Approximation
Average-RewardOff-PolicyPolicyEvaluationwithFunctionApproximationShangtongZhang1YiWan2RichardS.Sutton2ShimonWhiteson1Abstractwhichaimtogenerateapolicythatmaximizestherewardratebyiterativelyimprovin...
Approximation with Off-Policy Evaluation Policy
2023-11-16 18:07:401794882.77 KB14
下载文档
Bootstrapping Fitted Q-Evaluation for Off-Policy Inference
BootstrappingFittedQ-EvaluationforOff-PolicyInferenceBotaoHao1XiangJi2YaqiDuan2HaoLu2CsabaSzepesva´ri13MengdiWang12Abstractetal.,2013;Munos&Szepesva´ri,2008;Leetal.,2019).Inpractice,FQEhasdemonst...
for Inference Fitted Off-Policy Bootstrapping
2023-11-16 18:07:387041.19 MB4
下载文档
Understanding the Curse of Horizon in Off-Policy Evaluation via Conditional Importance Sampling
UnderstandingtheCurseofHorizoninOff-PolicyEvaluationviaConditionalImportanceSamplingYaoLiu1Pierre-LucBacon2EmmaBrunskill1Abstractincreasinginterestindevelopingaccurateandefﬁcientalgo-rithmsforoff-...
of the in Off-Policy Understanding
2023-11-14 21:46:541892287.9 KB23
下载文档
Striving for simplicity and performance in Off-Policy DRL Output Normalization and Non-Uniform Sampling
StrivingforSimplicityandPerformanceinOff-PolicyDRL:OutputNormalizationandNon-UniformSamplingCheWang12YanqiuWu12QuanVuong3KeithRoss12Abstract(Lillicrapetal.,2015;Fujimotoetal.,2018).TD3,whichintrodu...
for and in Off-Policy Performance
2023-11-14 21:46:3515672.82 MB2
下载文档
Statistically Efficient Off-Policy Policy Gradients
StatisticallyEfﬁcientOff-PolicyPolicyGradientsNathanKallus1MasatoshiUehara2AbstractTable1.ComparisonofOff-Policypolicygradientestimators.Here,f=Θ(g)means0<liminff/g≤limsupf/g<∞(nottoPolicygradi...
Efficient Off-Policy Policy Gradients Statistically
2023-11-14 21:46:3010531.72 MB2
下载文档
Representations for Stable Off-Policy Reinforcement Learning
RepresentationsforStableOff-PolicyReinforcementLearningDibyaGhosh1MarcBellemare1Abstract1995;Tsitsiklis&Roy,1996).Despitethispotentialforfailure,Q-learningandothertemporal-differencealgorithmsReinf...
Learning for Representations Reinforcement Off-Policy
2023-11-14 21:46:0911331.92 MB21
下载文档
Provably Convergent Two-Timescale Off-Policy Actor-Critic with Function Approximation
ProvablyConvergentTwo-TimescaleOff-PolicyActor-CriticwithFunctionApproximationShangtongZhang1BoLiu2HengshuaiYao3ShimonWhiteson1Abstractatwo-timescaleconvergentanalysisunderfunctionapproxi-mation(Ko...
with Off-Policy Provably Function Actor-Critic
2023-11-14 21:45:591377610.06 KB10
下载文档
Off-Policy Actor-Critic with Shared Experience Replay
Off-PolicyActor-CriticwithSharedExperienceReplaySimonSchmitt1MatteoHessel1KarenSimonyan1AbstractTable1.Comparisonofmodel-freestate-of-the-artagentson57Atarigamesinthestandardregime:Herenoexperience...
with Off-Policy Experience Replay Actor-Critic
2023-11-14 21:45:26832687.23 KB22
下载文档
Minimax Weight and Q-Function Learning for Off-Policy Evaluation
MinimaxWeightandQ-FunctionLearningforOff-PolicyEvaluationMasatoshiUehara1JiaweiHuang2NanJiang2Abstractfromthecommunity(Liuetal.,2018;Xieetal.,2019),astheyovercomethecurseofhorizonwithrelativelymild...
Learning for and Off-Policy Minimax
2023-11-14 21:45:111945440.35 KB14
下载文档
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation
Minimax-OptimalOff-PolicyEvaluationwithLinearFunctionApproximationYaqiDuan1ZeyuJia2MengdiWang34Abstractvalue)tobeearnedbyanewpolicybasedonloggedhistory.Thispaperstudiesthestatisticaltheoryofoff-Int...
Approximation with Off-Policy Evaluation Linear
2023-11-14 21:45:1113212.5 MB14
下载文档
Interpretable Off-Policy Evaluation in Reinforcement Learning by Highlighting Influential Transitions
InterpretableOff-PolicyEvaluationinReinforcementLearningbyHighlightingInﬂuentialTransitionsOmerGottesman1JosephFutoma1YaoLiu2SonaliParbhoo1LeoAnthonyCeli3EmmaBrunskill2FinaleDoshi-Velez1Abstractan...
Learning Reinforcement by in Off-Policy
2023-11-14 21:44:4210861.78 MB29
下载文档
Doubly robust Off-Policy evaluation with shrinkage
DoublyrobustOff-PolicyevaluationwithshrinkageYiSu1MariaDimakopoulou2AkshayKrishnamurthy3MiroslavDud´ık3Abstractsubroutinesforoptimizingapolicy(Dud´ıketal.,2011).Weproposeanewframeworkfordesigni...
with Robust Off-Policy Evaluation Doubly
2023-11-14 21:43:557701.8 MB14
下载文档

首页上页 1 2 下页尾页

确认删除?

VIP会员服务
限时5折优惠