强化学习论文(DDPG)

张开发
2026/4/17 20:18:58 15 分钟阅读

分享文章

强化学习论文(DDPG)
介绍DDPGDeep Determinitic Policy Gradient他主要针对确定性的策略在action space是连续量的时候直接输出action比如action space是范围为[-3, 3]内的电机扭矩。适合用来构建以图像等高纬度数据为输入直接输出action的端到端的算法比如自动驾驶。该算法是以DQN为核心思想结合Actor-Critic的model-free算法。传统的DQN依赖于argmax(q-value)因此只能解决低纬动作空间的任务无法解决连续动作空间任务。主要特点利用了和QFN中一样的replay buffer一共有四个神经网络critic, actor, target-critic, target-actor伪代码注意事项需要设定replay buffer的长度当buffer满时需要增加新的数据丢弃更早的数据因为随着迭代网络会更贴近真实的策略和q-value过早的数据就形成了污染。数据是在线更新的又有replay buffer因此是介于在线和离线之间的一种方法更新target网络时使用了soft updateθQ ← τθQ (1-τ)θQ 和θμ ← τθμ (1-τ)θμ小步幅的更新避免了剧烈抖动学习更稳定critic的更新是梯度下降的actor的更新是梯度上升的。输入需要做归一化

更多文章