首页
建站资讯
SEO优化
小程序
网站建设
数码科技
软件介绍
系统教程
questions
登录
标签
塑形
Dynamic Potential-Based Reward Shaping将势能塑形奖励函数拓展为F(s,t,s‘,t‘)
摘要 基于势能的奖励塑形可以显著降低学习最优策略所需的时间,并且在多agent系统中,可以显著提高最终联合策略的性能。已经证明,它不会改变一个agent单独学习的最优策略或
势能
函数
塑形
potential
dynamic
admin
1月前
27
0