强化学习5.1：时间差分方法

张开发

• 2026/4/8 19:04:53 • 15 分钟阅读

分享文章

核心思想在猜测中学习想象一下你每天下班开车回家。周一你遇到一段罕见的拥堵花费了60分钟。你心里会有一个预计时间比如平时是30分钟。当周一实际花了60分钟时你会更新你对这段路的预期“哦最近可能修路以后得预留45分钟。” 周二你预留了45分钟结果只花了40分钟你再次更新预期“可能没那么糟以后预留42分钟吧。”这个不断用实际经历修正自己预测的过程就是TD学习的精髓。在强化学习中这个“预测”通常是“状态价值”或“动作价值”。TD学习的核心公式可以概括为新估计 ← 旧估计步长 × [ 目标值 - 旧估计 ]其中[ 目标值 - 旧估计 ]被称为TD误差它驱动着学习的进行。核心算法TD(λ) 家族1.TD(0)- 最简单的TD算法估计状态价值函数V(s)更新公式α学习率控制更新幅度γ折扣因子衡量未来奖励的重要性Rₜ₊₁ γ·V(Sₜ₊₁) TD目标由即时奖励和下一个状态的估计值组成Rₜ₊₁ γ·V(Sₜ₊₁) - V(Sₜ)TD误差是学习的驱动力2.TD(λ) - 向前看的视角TD(0)只向前看一步。λ是一个介于0和1之间的参数提供了在一步更新和等到回合结束的蒙特卡洛更新之间的平滑过渡。λ0等价于TD(0)只利用一步后的信息。λ1等价于蒙特卡洛方法利用到回合结束的所有信息。0λ1通过资格迹(Eligibility Trace)机制优雅地分配更早状态所获得的功劳。状态/动作离获得奖励越近其资格迹越高获得的更新也越多。这能显著加速学习。3.SARSA - 经典的On-policy TD控制算法用于直接学习最优动作价值函数Q(s,a)从而得到策略。其名字来源于一次更新需要的五元组(S_t,A_t,R_{t1},S_{t1},A_{t1})更新公式特点遵循并改进的是当前正在执行的策略4.Q-Learning离轨 (off-policy) 控制算法更新公式特点学习最优策略max 操作执行探索策略如 ε-greedy收敛更快但可能不稳定关键特性与优势在线学习无需等待回合结束数据一来就立即更新非常适合持续进行的任务。低方差相比蒙特卡洛依赖一长串随机动作的最终结果TD只依赖一步随机性方差更低学习更稳定。模型无关无需知道环境的内部动力学模型直接从交互经验中学习。收敛性在适当的条件下可以证明TD算法能收敛到真实的价值函数。与蒙特卡洛和动态规划的对比特性动态规划蒙特卡洛时间差分环境模型需要不需要不需要更新时机全盘扫描不依赖实际经历必须等到回合结束每一步之后即可更新更新方式自举用其他状态的估计值更新用实际收获的完整回报更新自举用后续状态的估计值实际奖励更新方差/偏差低方差依赖模型准确性高方差依赖整个随机序列无偏中方差因自举引入偏差收敛性好关键区别示例假设你要估计从办公室到家的时间。动态规划你有一张精确的地图和每条路段的平均时间表你坐在家里就能推算出时间。蒙特卡洛你必须每天真实地开回家记录下总时间然后用很多天的平均时间作为估计。时间差分你开车时每过一个路口就根据当前剩余路段的预计时间和已花费时间立刻调整对整个行程的预计。

更多文章

前端开发 2026/4/8 19:04:47

Windows 11 + RTX 3050 显卡实测：3D Gaussian Splatting 环境配置避坑全记录

Windows 11 RTX 3050 显卡实测：3D Gaussian Splatting 环境配置避坑全记录最近在尝试复现3D Gaussian Splatting（3DGS）这个惊艳的实时辐射场渲染技术时，发现网上大多数教程都是基于高端显卡配置的。作为使用RTX 3050的主流用户&…

张开发

前端开发 2026/4/8 19:03:04

FireRedASR Pro实战案例：如何将1小时会议录音快速整理成文字稿

FireRedASR Pro实战案例：如何将1小时会议录音快速整理成文字稿 1. 场景痛点与解决方案 1.1 会议记录的传统困境想象一下这样的场景：公司每周的部门例会刚刚结束，作为会议记录负责人的你，面对长达1小时的录音文件发愁。传统的人…

张开发

前端开发 2026/4/8 19:02:58

go-systemd 入门指南：如何在 Go 中实现 systemd socket activation

go-systemd 入门指南：如何在 Go 中实现 systemd socket activation 【免费下载链接】go-systemd Go bindings to systemd socket activation, journal, D-Bus, and unit files 项目地址: https://gitcode.com/gh_mirrors/go/go-systemd 想要在 Go 应用中轻松…

张开发

前端开发 2026/4/8 19:01:45

Pixel Fashion Atelier镜像免配置部署：Docker Compose一键启动与端口映射说明

Pixel Fashion Atelier镜像免配置部署：Docker Compose一键启动与端口映射说明 1. 项目概述 Pixel Fashion Atelier是一款基于Stable Diffusion与Anything-v5的图像生成工作站，采用独特的复古日系RPG视觉风格设计。与传统AI工具不同，它将图像…

张开发

前端开发 2026/4/8 19:01:33

FAP荧光检测试剂盒：酶动力学与药物发现实时检测方案

在肿瘤微环境研究中，成纤维细胞活化蛋白（Fibroblast Activation Protein, FAP）正成为一个备受关注的治疗靶点。FAP是一种II型跨膜丝氨酸蛋白酶，属于二肽基肽酶（DPP）亚家族，在正常成人组织中表达…

张开发

前端开发 2026/4/8 19:00:44

别再只会用ZERO_SHOT了！LangChain Agent实战：5种内置类型保姆级对比与选型指南

LangChain Agent深度实战：5种核心类型场景化选型指南当开发者第一次接触LangChain的Agent模块时，往往会被各种类型名称弄得眼花缭乱。ZERO_SHOT_REACT_DESCRIPTION、CONVERSATIONAL_REACT_DESCRIPTION、OPENAI_FUNCTIONS...这些看似相似的Agent类型&…

张开发

前端开发 2026/4/8 19:00:08

Coze 开发智能体的方法

在 Coze（扣子）平台上开发智能体，本质上是平衡“人设描述”与“能力挂载”的过程。相比于传统的编程，它更像是在管理一个拥有多种工具的数字员工。以下是开发 Coze 智能体的核心方法与步骤：1. 明确人设与回复逻辑这是智…

张开发

前端开发 2026/4/8 18:59:44

终极魔兽争霸3优化指南：5分钟让经典游戏在现代电脑上流畅运行

终极魔兽争霸3优化指南：5分钟让经典游戏在现代电脑上流畅运行【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为魔兽争霸3在现代电脑上…

张开发