采用分类经验回放的深度确定性策略梯度方法

时间:2022-06-06 08:35:33
作者:时圣苗,刘全
关键字:连续控制任务, 深度确定性策略梯度, 经验回放, 分类经验回放
DOI:10.16383/j.aas.c190406
查看次数:191

如需要完整文档点击下方 "点击下载文档" 按钮

摘要:深度确定性策略梯度(Deep deterministic policy gradient, DDPG)方法在连续控制任务中取得了良好的性能表现. 为进一步提高深度确定性策略梯度方法中经验回放机制的效率, 提出分类经验回放方法, 并采用两种方式对经验样本分类: 基于时序差分误差样本分类的深度确定性策略梯度方法(DDPG with temporal difference-error classification, TDC-DDPG)和基于立即奖赏样本分类的深度确定性策略梯度方法(DDPG with reward classification, RC-DDPG).在TDC-DDPG和RC-DDPG方法中, 分别使用两个经验缓冲池, 对产生的经验样本按照重要性程度分类存储, 网络模型训练时通过选取较多重要性程度高的样本加快模型学习. 在连续控制任务中对分类经验回放方法进行测试, 实验结果表明, 与随机选取经验样本的深度确定性策略梯度方法相比, TDC-DDPG和RC-DDPG方法具有更好的性能.

如需要完整文档点击下方 "点击下载文档" 按钮

采用分类经验回放的深度确定性策略梯度方法
《采用分类经验回放的深度确定性策略梯度方法》
完整文档 下载到本地,方便收藏和查阅
文件号:049032
采用分类经验回放的深度确定性策略梯度方法
点击下载文档
采用分类经验回放的深度确定性策略梯度方法

点击下载 文件号:049032(点击复制) 公众号(点击复制)

x