"Policy"的相关文档 - 文库宝

开通VIP限时优惠

|

登录 | 注册

标签“Policy”的相关文档，共83条

Robust Reinforcement Learning using Least Squares Policy Iteration with Provable Performance Guarantees
RobustReinforcementLearningusingLeastSquaresPolicyIterationwithProvablePerformanceGuaranteesKishanPanaganti1DileepKalathil1AbstractThismismatchbetweenthetrainingandtestingenvironmentparameterscansi...
Learning Using Reinforcement Robust Policy
2023-11-16 19:41:3814402.55 MB14
下载文档
Robust Policy Gradient against Strong Data Corruption
RobustPolicyGradientagainstStrongDataCorruptionXuezhouZhang1YidingChen1JerryZhu1WenSun2Abstracthighlynoisydata,suchasautonomousdriving,quantitativetrading,ormedicaldiagnosis.Westudytheproblemofrobu...
Gradient Data Robust Policy Strong
2023-11-16 19:41:3711073.79 MB19
下载文档
Re-understanding Finite-State Representations of Recurrent Policy Networks
Re-understandingFinite-StateRepresentationsofRecurrentPolicyNetworksMohamadH.Danesh1AnuragKoul1AlanFern1SaeedKhorram1Abstracttivehumaninterpretationoftheunderlying“strategicrole"oftheattended-toel...
of Representations Networks Recurrent Policy
2023-11-16 19:41:335781.68 MB6
下载文档
Provably Efficient Fictitious Play Policy Optimization for Zero-Sum Markov Games with Structured Transitions
ProvablyEfﬁcientFictitiousPlayPolicyOptimizationforZero-SumMarkovGameswithStructuredTransitionsShuangQiu1XiaohanWei2JiepingYe1ZhaoranWang3ZhuoranYang4Abstractunderstandingofmulti-agentPolicyoptimi...
for Efficient Optimization Policy Provably
2023-11-16 19:28:341957322.17 KB18
下载文档
Posterior Value Functions Hindsight Baselines for Policy Gradient Methods
PosteriorValueFunctions:HindsightBaselinesforPolicyGradientMethodsChrisNota1BrunoCastrodaSilva1PhilipS.Thomas1Abstractcases,suchinformationcanbeusefulforassessingwhichoutcomeswerelikelytohaveoccurr...
for Policy Value Functions Posterior
2023-11-16 19:28:301954802.41 KB23
下载文档
Policy Information Capacity Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning
PolicyInformationCapacity:Information-TheoreticMeasureforTaskComplexityinDeepReinforcementLearningHirokiFuruta1TatsuyaMatsushima1TadashiKozuno2YutakaMatsuo1SergeyLevine3OﬁrNachum3ShixiangShaneGu3A...
for Capacity Policy Information Task
2023-11-16 19:28:2918272.55 MB28
下载文档
Policy Caches with Successor Features
PolicyCacheswithSuccessorFeaturesMarkNemecek1RonaldParr1Abstracttaskswhichvaryintheirrewardfunctions,butwherethedynamicsremainthesame.Althoughlimitedinscope,thisTransferinreinforcementlearningisbas...
with Policy Features Successor Caches
2023-11-16 19:28:2919765.25 MB19
下载文档
Policy Gradient Bayesian Robust Optimization for Imitation Learning
PolicyGradientBayesianRobustOptimizationforImitationLearningZaynahJaved1DanielS.Brown1SatvikSharma1JerryZhu1AshwinBalakrishna1MarekPetrik2AncaD.Dragan1KenGoldberg1Abstracthuman-designedrewardfuncti...
for Optimization Gradient Bayesian Robust
2023-11-16 19:28:291011874.8 KB15
下载文档
Policy Analysis using Synthetic Controls in Continuous-Time
PolicyAnalysisusingSyntheticControlsinContinuous-TimeAlexisBellot12MihaelavanderSchaar123Abstractoraverageinaneighbourhoodofcontrols)oftenprovidesamoreinformativecomparisonfortreatmenteffectestimat...
Using Analysis in Policy Synthetic
2023-11-16 19:28:291503687.59 KB12
下载文档
PODS Policy Optimization via Differentiable Simulation
PODS:PolicyOptimizationviaDifferentiableSimulationMiguelZamora1MomchilPeychev1SehoonHa2MartinVechev1StelianCoros1Abstractpotentiallyunsafe.Fortunately,recentyearshaveseenexcit-ingprogressinsimulati...
Optimization via Policy Differentiable Simulation
2023-11-16 19:28:2912612.05 MB28
下载文档
Phasic Policy Gradient
PhasicPolicyGradientKarlCobbe1JacobHilton1OlegKlimov1JohnSchulman1Abstractcanbeusedtobetteroptimizetheother.WeintroducePhasicPolicyGradient(PPG),are-However,therearealsodisadvantagestosharingnetwor...
Gradient Policy Phasic
2023-11-16 19:28:289611.21 MB3
下载文档
PC-MLP Model-based Reinforcement Learning with Policy Cover Guided Exploration
PC-MLP:Model-basedReinforcementLearningwithPolicyCoverGuidedExplorationYudaSong1WenSun2Abstractsuccessrate0.5HandEgg0.4Model-basedReinforcementLearning(RL)isa0.3DeepPC-MPL200000popularlearningparad...
Learning with Reinforcement Cover Model-Based
2023-11-16 19:28:2817373.18 MB23
下载文档
OptiDICE Offline Policy Optimization via Stationary Distribution Correction Estimation
OptiDICE:OfﬂinePolicyOptimizationviaStationaryDistributionCorrectionEstimationJongminLee1WonseokJeon23Byung-JunLee4JoellePineau235Kee-EungKim16Abstractandthentodeploythemodelwithitsparameterﬁxedw...
Optimization via Policy Distribution Stationary
2023-11-16 19:28:251741994.54 KB29
下载文档
Online Policy Gradient for Model Free Learning of Linear Quadratic Regulators with $ sqrt$T Regret
OnlinePolicyGradientforModelFre√eLearningofLinearQuadraticRegulatorswithTRegretAsafCassel1TomerKoren12AbstractModel-basedmethods,whichperformplanningbasedonasystemidentiﬁcationprocedurethatestima...
Learning for Online Gradient Model
2023-11-16 19:28:241219289.14 KB25
下载文档
On the Optimality of Batch Policy Optimization Algorithms
OntheOptimalityofBatchPolicyOptimizationAlgorithmsChenjunXiao12YifanWu3TorLittlemore4BoDai2JinchengMei12LihongLi†5CsabaSzepesvari14DaleSchuurmans12Abstractaﬁxeddatasetofpreviouslycollectedexperie...
of Optimization on the Policy
2023-11-16 19:15:478443.58 MB11
下载文档
On Proximal Policy Optimization’s Heavy-tailed Gradients
OnProximalPolicyOptimization’sHeavy-tailedGradientsSaurabhGarg1JoshuaZhanson2EmilioParisotto1AdarshPrasad1J.ZicoKolter2ZacharyC.Lipton1SivaramanBalakrishnan3RuslanSalakhutdinov1PradeepRavikumar1Ab...
Optimization on Policy Proximal Gradients
2023-11-16 19:15:441109607.75 KB20
下载文档
Muesli Combining Improvements in Policy Optimization
Muesli:CombiningImprovementsinPolicyOptimizationMatteoHessel1IvoDanihelka12FabioViola1ArthurGuez1SimonSchmitt1LaurentSifre1TheophaneWeber1DavidSilver12HadovanHasselt1AbstractMedianhuman-normalizeds...
Optimization in Combining Policy Muesli
2023-11-16 19:15:291391970.75 KB17
下载文档
Monotonic Robust Policy Optimization with Model Discrepancy
MonotonicRobustPolicyOptimizationwithModelDiscrepancyYuankunJiang1ChenglinLi2WenruiDai1JunniZou1HongkaiXiong2Abstractcontroltasks,e.g.,playingcomputergameswithhuman-levelperformance(Mnihetal.,2013;...
Optimization with Model Robust Policy
2023-11-16 19:15:2814732.57 MB9
下载文档
Model-Free and Model-Based Policy Evaluation when Causality is Uncertain
Model-FreeandModel-BasedPolicyEvaluationwhenCausalityisUncertainDavidBruns-Smith1Abstractunobservedshocksareoftenassumedtobedrawniidev-eryperiod.ConsidertheFederalReserveBoardadjustingWhendecision-...
and Model-Based Model-Free Evaluation Policy
2023-11-16 19:15:2611701.65 MB7
下载文档
Guided Exploration with Proximal Policy Optimization using a Single Demonstration
GuidedExplorationwithProximalPolicyOptimizationusingaSingleDemonstrationGabrieleLibardi1SebastianDittert1GianniDeFabritiis12AbstractLearningfromdemonstrationsallowstodirectlybypassthisproblembutito...
Using Optimization with Policy Proximal
2023-11-16 18:46:531819961.55 KB4
下载文档

首页上页 1 2 3 4 5 下页尾页

确认删除?

VIP会员服务
限时5折优惠