采用分类经验回放的深度确定性策略梯度方法论文211网

采用分类经验回放的深度确定性策略梯度方法

时间：2022-06-06 08:35:33
作者：时圣苗,刘全
关键字：连续控制任务, 深度确定性策略梯度, 经验回放, 分类经验回放
DOI：10.16383/j.aas.c190406
查看次数：191

如需要完整文档点击下方 "点击下载文档" 按钮

摘要:深度确定性策略梯度(Deep deterministic policy gradient, DDPG)方法在连续控制任务中取得了良好的性能表现. 为进一步提高深度确定性策略梯度方法中经验回放机制的效率, 提出分类经验回放方法, 并采用两种方式对经验样本分类: 基于时序差分误差样本分类的深度确定性策略梯度方法(DDPG with temporal difference-error classification, TDC-DDPG)和基于立即奖赏样本分类的深度确定性策略梯度方法(DDPG with reward classification, RC-DDPG).在TDC-DDPG和RC-DDPG方法中, 分别使用两个经验缓冲池, 对产生的经验样本按照重要性程度分类存储, 网络模型训练时通过选取较多重要性程度高的样本加快模型学习. 在连续控制任务中对分类经验回放方法进行测试, 实验结果表明, 与随机选取经验样本的深度确定性策略梯度方法相比, TDC-DDPG和RC-DDPG方法具有更好的性能.

如需要完整文档点击下方 "点击下载文档" 按钮

《采用分类经验回放的深度确定性策略梯度方法》

将 完整文档 下载到本地，方便收藏和查阅

文件号：049032

点击下载文档

相关文章推荐

基于深度确定性策略梯度的随机路由防御方法

上一篇：多维注意力特征聚合立体匹配算法下一篇：基于i向量和变分自编码相对生成对抗网络的语音转换

热门分类