"Policy"的相关文档 - 文库宝

开通VIP限时优惠

|

登录 | 注册

标签“Policy”的相关文档，共83条

Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field Control Game in Continuous Time
GlobalConvergenceofPolicyGradientforLinear-QuadraticMean-FieldControl/GameinContinuousTimeWeichenWang1JiequnHan2ZhuoranYang3ZhaoranWang4Abstractmorerealisticreal-worldproblems,suchasroboticcontrol(...
of for Gradient Convergence Policy
2023-11-16 18:46:471960361.89 KB1
下载文档
FOP Factorizing Optimal Joint Policy of Maximum-Entropy Multi-Agent Reinforcement Learning
FOP:FactorizingOptimalJointPolicyofMaximum-EntropyMulti-AgentReinforcementLearningTianhaoZhang1YuehengLi1ChenWang1GuangmingXie1ZongqingLu1Abstractvalue-basedandactor-criticMARLmethods,whereglobalin...
of Optimal Policy Joint Factorizing
2023-11-16 18:37:5413371.84 MB3
下载文档
Decoupling Value and Policy for Generalization in Reinforcement Learning
DecouplingValueandPolicyforGeneralizationinReinforcementLearningRobertaRaileanu1RobFergus1Abstractization(Farebrotheretal.,2018;Zhangetal.,2018a;Cobbeetal.,2018;Igletal.,2019),dataaugmentation(Cobb...
for and in Policy Value
2023-11-16 18:31:0017484.61 MB29
下载文档
Characterizing the Gap Between Actor-Critic and Policy Gradient
CharacterizingtheGapBetweenActor-CriticandPolicyGradientJunfengWen1SaurabhKumar2RamkiGummadi3DaleSchuurmans13Abstractonarangeofchallengingtasks.DespitethesuccessofACmethods,ACandPGhavesubtlediffere...
gap and the Policy Actor-Critic
2023-11-16 18:11:1911222.17 MB3
下载文档
Average-Reward Off-Policy Policy Evaluation with Function Approximation
Average-RewardOff-PolicyPolicyEvaluationwithFunctionApproximationShangtongZhang1YiWan2RichardS.Sutton2ShimonWhiteson1AbstractwhichaimtogenerateaPolicythatmaximizestherewardratebyiterativelyimprovin...
Approximation with Off-Policy Evaluation Policy
2023-11-16 18:07:401794882.77 KB14
下载文档
Adversarial Policy Learning in Two-player Competitive Games
AdversarialPolicyLearninginTwo-playerCompetitiveGamesWenboGuo1XianWu1SuiHuang2XinyuXing1Abstract2020),wearguethatattacksdevelopedunderthisassump-tionarenotpractical.Forexample,givenamasteragentInat...
Learning Adversarial in Policy Games
2023-11-16 18:00:279071.68 MB7
下载文档
Adaptive Sampling for Best Policy Identification in Markov Decision Processes
AdaptiveSamplingforBestPolicyIdentiﬁcationinMarkovDecisionProcessesAymenAlMarjani1AlexandreProutiere2Abstractcertainty.Thispaper,asmostrelatedworkinthisﬁeld,fo-cusesonsystemsandcontrolobjectivest...
Adaptive for Identification Sampling in
2023-11-16 18:00:25769428.25 KB20
下载文档
A Policy Gradient Algorithm for Learning to Learn in Multiagent Reinforcement Learning
APolicyGradientAlgorithmforLearningtoLearninMultiagentReinforcementLearningDong-KiKim12MiaoLiu23MatthewRiemer23ChuangchuangSun12MarwaAbdulhai12GolnazHabibi12SebastianLopez-Cot12GeraldTesauro23Jonat...
Learning for Gradient Algorithm Policy
2023-11-16 17:51:5615291.16 MB21
下载文档
Taylor Expansion Policy Optimization
TaylorExpansionPolicyOptimizationYunhaoTang1MichalValko2Re´miMunos2AbstractgorithmicideashavecontributedsigniﬁcantlytostabilizingPolicyoptimization.Inthiswork,weinvestigatetheapplicationofTaylore...
Optimization Policy Taylor Expansion
2023-11-14 21:46:401915555.23 KB9
下载文档
Structured Policy Iteration for Linear Quadratic Regulator
StructuredPolicyIterationforLinearQuadraticRegulatorYoungsukPark1RyanA.Rossi2ZhengWen3GangWu2HandongZhao2Abstractson&Moore,2007)spanningseveraldecades.Linearquadraticregulator(LQR)isoneoftheThissto...
for Policy Structured Linear Iteration
2023-11-14 21:46:361000396.03 KB5
下载文档
Statistically Efficient Off-Policy Policy Gradients
StatisticallyEfﬁcientOff-PolicyPolicyGradientsNathanKallus1MasatoshiUehara2AbstractTable1.Comparisonofoff-PolicyPolicygradientestimators.Here,f=Θ(g)means0<liminff/g≤limsupf/g<∞(nottoPolicygradi...
Efficient Off-Policy Policy Gradients Statistically
2023-11-14 21:46:3010531.72 MB2
下载文档
Ready Policy One World Building Through Active Learning
ReadyPolicyOne:WorldBuildingThroughActiveLearningPhilipJ.Ball1JackParker-Holder1AldoPacchiano2KrzysztofChoromanski3StephenRoberts1Abstractenvironment)thatcanbeleveragedacrossmanydifferenttasks(tran...
Active through Policy World One
2023-11-14 21:46:041146783.79 KB4
下载文档
Provably Efficient Model-based Policy Adaptation
ProvablyEfﬁcientModel-basedPolicyAdaptationYudaSong1AditiMavalankar1WenSun2SicunGao1AbstractMordatchetal.,2015),ormeta-learnpoliciesormodelsthatcanbequicklyadaptedtoin-distributionenvironments(Fin...
Efficient Adaptation Model-Based Policy Provably
2023-11-14 21:46:0016797.27 MB24
下载文档
Provably Efficient Exploration in Policy Optimization
ProvablyEfﬁcientExplorationinPolicyOptimizationQiCai1ZhuoranYang2ChiJin3ZhaoranWang1Abstractofiterations,evengiveninﬁnitedata.Meanwhile,fromthestatisticalperspective,itremainsunclearhowtoattainWh...
Efficient Optimization in Policy Exploration
2023-11-14 21:46:00504443.41 KB11
下载文档
Policy Teaching via Environment Poisoning Training-time Adversarial Attacks against Reinforcement Learning
PolicyTeachingviaEnvironmentPoisoning:Training-timeAdversarialAttacksagainstReinforcementLearningAminRakhsha1GoranRadanovic1RatiDevidze1XiaojinZhu2AdishSingla1Abstractcisions,poisoningattacksmanipu...
Adversarial via Policy Teaching Poisoning
2023-11-14 21:45:521742585.6 KB14
下载文档
Optimizing Multiagent Cooperation via Policy Evolution and Shared Experiences
EvolutionaryReinforcementLearningforSample-EfﬁcientMultiagentCoordinationShauhardaKhadka1SomdebMajumdar1SantiagoMiret1StephenMcAleer2KaganTumer3Abstracttowardmaximizingaglobalobjective.Cooperative...
and via Policy Evolution Optimizing
2023-11-14 21:45:4612133.05 MB6
下载文档
Optimistic Policy Optimization with Bandit Feedback
OptimisticPolicyOptimizationwithBanditFeedbackYonathanEfroni1LiorShani1AvivRosenberg2ShieMannor1AbstractDuetotheirpopularity,thereisarichliteraturethatpro-videsdifferenttypesoftheoreticalguarantees...
Optimization with Policy Bandit Feedback
2023-11-14 21:45:431196347.2 KB10
下载文档
Neural Network Control Policy Verification With Persistent Adversarial Perturbation
NeuralNetworkControlPolicyVeriﬁcationwithPersistentAdversarialPerturbationsYuh-ShyangWang1Tsui-WeiWeng2LucaDaniel2Abstractneuralnetworksaresurprisinglyvulnerabletoadversarialexamplesandattacks(Hua...
Neural with Persistent Policy Network
2023-11-14 21:45:211483881.88 KB13
下载文档
Multi-Precision Policy Enforced Training (MuPPET) A Precision-Switching Strategy for Quantised Fixed-Point Training of CNNs
Multi-PrecisionPolicyEnforcedTraining(MuPPET):Aprecision-switchingstrategyforquantisedﬁxed-pointtrainingofCNNsAdityaRajagopal1DiederikAdriaanVink1StylianosI.Venieris2Christos-SavvasBouganis1Abstra...
Policy Training Strategy Multi-Precision Enforced
2023-11-14 21:45:1611021010.93 KB13
下载文档
Monte-Carlo Tree Search as Regularized Policy Optimization
Monte-CarlotreesearchasregularizedPolicyoptimizationJean-BastienGrill1FlorentAltche´1YunhaoTang12ThomasHubert3MichalValko1IoannisAntonoglou3Re´miMunos1AbstractAlphaZeroemploysanalternativehandcra...
Optimization Tree Policy Search as
2023-11-14 21:45:13904880.26 KB5
下载文档

首页上页 1 2 3 4 5 下页尾页

确认删除?

VIP会员服务
限时5折优惠