强化学习5.1:时间差分方法

张开发
2026/4/8 19:04:53 15 分钟阅读

分享文章

强化学习5.1:时间差分方法
核心思想在猜测中学习想象一下你每天下班开车回家。周一你遇到一段罕见的拥堵花费了60分钟。你心里会有一个预计时间比如平时是30分钟。当周一实际花了60分钟时你会更新你对这段路的预期“哦最近可能修路以后得预留45分钟。” 周二你预留了45分钟结果只花了40分钟你再次更新预期“可能没那么糟以后预留42分钟吧。”这个不断用实际经历修正自己预测的过程就是TD学习的精髓。在强化学习中这个“预测”通常是“状态价值”或“动作价值”。TD学习的核心公式可以概括为新估计 ← 旧估计 步长 × [ 目标值 - 旧估计 ]其中[ 目标值 - 旧估计 ]被称为TD误差它驱动着学习的进行。核心算法TD(λ) 家族1.TD(0)- 最简单的TD算法估计状态价值函数V(s)更新公式α学习率控制更新幅度γ折扣因子衡量未来奖励的重要性Rₜ₊₁ γ·V(Sₜ₊₁) TD目标由即时奖励和下一个状态的估计值组成Rₜ₊₁ γ·V(Sₜ₊₁) - V(Sₜ)TD误差是学习的驱动力2.TD(λ) - 向前看的视角TD(0)只向前看一步。λ是一个介于0和1之间的参数提供了在一步更新和等到回合结束的蒙特卡洛更新之间的平滑过渡。λ0等价于TD(0)只利用一步后的信息。λ1等价于蒙特卡洛方法利用到回合结束的所有信息。0λ1通过资格迹(Eligibility Trace)机制优雅地分配更早状态所获得的功劳。状态/动作离获得奖励越近其资格迹越高获得的更新也越多。这能显著加速学习。3.SARSA - 经典的On-policy TD控制算法用于直接学习最优动作价值函数Q(s,a)从而得到策略。其名字来源于一次更新需要的五元组(S_t,A_t,R_{t1},S_{t1},A_{t1})更新公式特点遵循并改进的是当前正在执行的策略4.Q-Learning离轨 (off-policy) 控制算法更新公式特点学习最优策略max 操作执行探索策略如 ε-greedy收敛更快但可能不稳定关键特性与优势在线学习无需等待回合结束数据一来就立即更新非常适合持续进行的任务。低方差相比蒙特卡洛依赖一长串随机动作的最终结果TD只依赖一步随机性方差更低学习更稳定。模型无关无需知道环境的内部动力学模型直接从交互经验中学习。收敛性在适当的条件下可以证明TD算法能收敛到真实的价值函数。与蒙特卡洛和动态规划的对比特性动态规划蒙特卡洛时间差分环境模型需要不需要不需要更新时机全盘扫描不依赖实际经历必须等到回合结束每一步之后即可更新更新方式自举用其他状态的估计值更新用实际收获的完整回报更新自举用后续状态的估计值实际奖励更新方差/偏差低方差依赖模型准确性高方差依赖整个随机序列无偏中方差因自举引入偏差收敛性好关键区别示例假设你要估计从办公室到家的时间。动态规划你有一张精确的地图和每条路段的平均时间表你坐在家里就能推算出时间。蒙特卡洛你必须每天真实地开回家记录下总时间然后用很多天的平均时间作为估计。时间差分你开车时每过一个路口就根据当前剩余路段的预计时间和已花费时间立刻调整对整个行程的预计。

更多文章