强化学习论文（DDPG）

张开发

• 2026/4/17 20:18:58 • 15 分钟阅读

分享文章

介绍DDPGDeep Determinitic Policy Gradient他主要针对确定性的策略在action space是连续量的时候直接输出action比如action space是范围为[-3, 3]内的电机扭矩。适合用来构建以图像等高纬度数据为输入直接输出action的端到端的算法比如自动驾驶。该算法是以DQN为核心思想结合Actor-Critic的model-free算法。传统的DQN依赖于argmax(q-value)因此只能解决低纬动作空间的任务无法解决连续动作空间任务。主要特点利用了和QFN中一样的replay buffer一共有四个神经网络critic, actor, target-critic, target-actor伪代码注意事项需要设定replay buffer的长度当buffer满时需要增加新的数据丢弃更早的数据因为随着迭代网络会更贴近真实的策略和q-value过早的数据就形成了污染。数据是在线更新的又有replay buffer因此是介于在线和离线之间的一种方法更新target网络时使用了soft updateθQ ← τθQ (1-τ)θQ 和θμ ← τθμ (1-τ)θμ小步幅的更新避免了剧烈抖动学习更稳定critic的更新是梯度下降的actor的更新是梯度上升的。输入需要做归一化

强化学习论文（DDPG）

最新文章

告别手动计数！用EB Tresos和S32K312的GPT模块实现多级定时任务调度（附代码）

任务估算管理化技术计划扑克与相对估算

语义分割Mask处理避坑指南：PIL vs OpenCV读写灰度图与调色板图的正确姿势

SpringBoot集成PowerJob实战：从零构建高可靠分布式任务调度平台

如何用lunar-javascript快速搞定农历计算？完整实用指南

自媒体增长引擎中内容量化成垂直领域知识库的思考

推荐文章

⑩【从0制作自己的ros导航小车：上位机篇】05、导航！

从NUSTCTF Ezjava1看Java Web参数绑定与条件竞争漏洞挖掘

SITS2026现场直击：LLM-native NLP架构设计原则（含可复用的5层抽象模型图谱）

AHT20温湿度传感器库深度解析与工业级应用实践

Rust的引用计数智能指针Rc与Arc在线程共享中的内部可变性

libhv实战：从零构建一个功能完备的HTTP客户端

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

# WebNFC：让网页也能“碰一碰”——基于JavaScript的近场通信实战在

OpenSTA：开源时序验证工具的完整指南，快速掌握芯片时序分析

从音乐合成到图像压缩：聊聊傅里叶级数在信号处理中的那些‘隐藏’应用

别再死记硬背了！用‘马路高架’和‘分时吃饭’的比喻，5分钟搞懂5G/4G里的MIMO、OFDM和TDM

从巧合到必然：技术演进中的“百万分之一”与确定性设计

商场/连锁店双目客流统计摄像头(支持poe供电)哪种好？

PCTF_pwn_test_your_nc

高企管理成熟度评价（八）：产业链补位诊断——从“企业培育”到“产业集群升级”，精准招商的“导航仪”

入站流量（Ingress）与出站流量（Egress）介绍（网络流量数据流动的方向）Ingress Rule（入站规则）、Egress Rule（出站规则）

告别卡顿！用Android 13新特性优化TV开机：延迟加载、线程池调优与IO黑科技

Transformer推理延迟突增？SITS2026现场抓包分析的4类隐性KV Cache失效场景

为什么说企业的效率差距，核心在自动化能力的差距？2026企业数字化转型：实在Agent重塑人机协同新范式