【优化器】Adagrad 、RMSPorp、Adam详解

张开发

• 2026/4/14 8:56:44 • 15 分钟阅读

分享文章

文章目录AdagradRMSPorpAdamAdagrad 存在的问题RMSProp 对 Adagrad 的优化1. 梯度累积方式优化2. 优化效果AdagradAdagrad 优化算法被称为自适应学习率优化算法。之前我们讲的随机梯度下降算法对所有参数都是使用相同的、固定的学习率进行优化的但是不同参数的梯度差异可能很大使用相同的学习率效果不会很好。举例说明假设损失函数是f ( x ) x 1 2 10 x 2 2 f(x)x_1^2 10x_2^2f(x)x1210x22x xx和y yy的初始值分别为x 1 40 , x 2 20 x_140, x_220x140,x220(通过观察我们即可知道x 1 0 x_10x10和x 2 0 x_20x20就是两个参数的极点)对x 1 x_1x1求偏导∂ l o s s ∂ x 1 2 x 1 \frac{\partial loss}{\partial x_1} 2x_1∂x1∂loss2x1代入初始值x 1 40 x_140x140得∂ l o s s ∂ x 1 80 \frac{\partial loss}{\partial x_1} 80∂x1∂loss80对x 2 x_2x2求偏导∂ l o s s ∂ x 2 20 x 2 \frac{\partial loss}{\partial x_2} 20x_2∂x2∂loss20x2代入初始值x 2 20 x_220x220得∂ l o s s ∂ x 2 400 \frac{\partial loss}{\partial x_2} 400∂x2∂loss400x 1 x_1x1将要移动的幅度小于x 2 x_2x2将要移动的幅度而x 1 x_1x1距离极值点x 1 0 x_10x10是较远的所以我们使用梯度下降法效果并不好Adagrad 思想对于不同参数设置不同学习率方法对于每个参数初始化一个累计平方梯度r 0 r0r0然后每次将该参数的梯度平方求和累加到这个变量r rr上r ← r g 2 r \leftarrow r g^2r←rg2然后再更新这个参数的时候学习率变为η r δ \frac{\eta}{\sqrt{r\delta}}rδη权重更新w ← w − η r δ ∗ g w \leftarrow w - \frac{\eta}{\sqrt{r\delta}} * gw←w−rδη∗g其中g gg为梯度r rr为累积平方梯度初始为0η \etaη为学习率δ \deltaδ为小参数避免分母为0一般取值10 − 10 10^{-10}10−10。这样不同的参数由于梯度不同它们对应的r rr大小也就不同所以学习率就不同这也就实现了自适应的学习率。总结Adagrad 的核心想法就是如果一个参数的梯度一直都非常大那么其对应的学习率就变小一点防止震荡而一个参数的梯度一直都非常小那么这个参数的学习率就变大一点使得其能够更快地更新这就是 Adagrad 算法加快深层神经网络训练速度的核心。RMSPorpRMSPropRoot Mean Square Propagation 均方根传播RMSProp 是在 Adagrad 的基础上进一步在学习率的方向上优化。累计平方梯度更新r ← λ r ( 1 − λ ) g 2 r \leftarrow \lambda r (1 - \lambda)g^2r←λr(1−λ)g2权重更新w ← w − η r δ ∗ g w \leftarrow w - \frac{\eta}{\sqrt{r\delta}} * gw←w−rδη∗g其中g gg为梯度r rr为累积平方梯度初始为0λ \lambdaλ为衰减系数η \etaη为学习率δ \deltaδ为小参数避免分母为0。Adam在 Gradient Descent 的基础上做了如下几个方面改进梯度方面增加了 momnentum 使用累积梯度v ← α v ( 1 − α ) g v \leftarrow \alpha v (1 - \alpha)gv←αv(1−α)g同RMSProp 优化算法一样对学习率进行优化使用累积平方梯度r ← λ r ( 1 − λ ) g 2 r \leftarrow \lambda r (1 - \lambda)g^2r←λr(1−λ)g2偏差纠正t tt表示迭代次数v ^ v 1 − α t , r ^ r 1 − λ t \hat{v} \frac{v}{1-\alpha^t}, \quad \hat{r} \frac{r}{1-\lambda^t}v^1−αtv,r^1−λtr在如上三点改进的基础上权重更新w ← w − η r ^ δ ∗ v ^ w \leftarrow w - \frac{\eta}{\sqrt{\hat{r}\delta}} * \hat{v}w←w−r^δη∗v^为啥要偏差纠正第1次更新时v 1 ← α v 0 ( 1 − α ) g 1 v_1 \leftarrow \alpha v_0 (1 - \alpha)g_1v1←αv0(1−α)g1由于v 0 v_0v0的初始是0且α \alphaα值一般会设置为接近于1因此t tt较小时v vv的值是偏向于0的。Adagrad 存在的问题Adagrad 虽然实现了自适应学习率但存在一个明显缺陷累积平方梯度r rr会一直累加、单调递增r ← r g 2 r \leftarrow r g^2r←rg2随着训练迭代次数增多r rr会越来越大导致有效学习率η r δ \frac{\eta}{\sqrt{r\delta}}rδη持续不断减小后期几乎趋近于 0参数更新停滞模型无法继续收敛。RMSProp 对 Adagrad 的优化RMSProp 核心改进引入指数滑动平均EMA只累积近期梯度避免历史梯度无限累积。1. 梯度累积方式优化Adagradr ← r g 2 r \leftarrow r g^2r←rg2RMSPropr ← λ r ( 1 − λ ) g 2 r \leftarrow \lambda r (1-\lambda)g^2r←λr(1−λ)g2λ \lambdaλ衰减系数通常取 0.9 左右历史梯度按指数衰减只保留近期梯度信息r rr不会无限增大学习率不会持续衰减到接近 02. 优化效果解决 Adagrad 后期学习率过小、收敛停滞的问题训练更稳定收敛速度更快更适合深度神经网络、非凸优化场景参数更新公式保持类似形式w ← w − η r δ ⋅ g w \leftarrow w - \frac{\eta}{\sqrt{r\delta}} \cdot gw←w−rδη⋅g本文参考https://www.bilibili.com/video/BV1jh4y1q7ua/?spm_id_from333.1387.favlist.content.clickvd_sourcecf0b4c9c919d381324e8f3466e714d7a

更多文章

前端开发 2026/4/14 8:56:32

卷积层的in_channels和out_channels是怎么确定的，以及后一个和前一个输入是怎么确定的

这个问题其实是从“会用模型”跨到“会设计网络”的关键点。我给你讲清楚三件事： in_channels / out_channels 本质是什么每一层是怎么“自动对上”的实际设计时这些参数怎么定（不是死记，是有规律的）一、in_channels / out_channe…

终极Python大麦抢票神器：告别手动抢票的完整自动化指南【免费下载链接】DamaiHelper 大麦网演唱会演出抢票脚本。项目地址: https://gitcode.com/gh_mirrors/dama/DamaiHelper 还在为抢不到心仪的演唱会门票而烦恼吗？DamaiHelper是一个基于Pyth…

张开发

前端开发 2026/4/14 8:44:42

终极大众点评爬虫实战指南：30分钟学会全站数据采集与防封策略

终极大众点评爬虫实战指南：30分钟学会全站数据采集与防封策略【免费下载链接】dianping_spider 大众点评爬虫（全站可爬，解决动态字体加密，非OCR）。持续更新项目地址: https://gitcode.com/gh_mirrors/di/dianping_…

张开发

【优化器】Adagrad 、RMSPorp、Adam详解

最新文章

从PCIe-403 VU模块看异构计算时代下的FPGA信号处理平台构建

全网最全Java高级面试题汇总

AI大模型就业指南，盘点大模型热门就业方向有哪些？非常详细收藏我这一篇就够了

3步告别抢票烦恼：大麦网自动化抢票工具实战指南

Kali Linux下Vulnhub-CTF6靶机渗透实战：从信息收集到udev提权完整流程

从钟楼到穹顶，读懂一座教堂的城市记忆

推荐文章

⑩【从0制作自己的ros导航小车：上位机篇】05、导航！

从NUSTCTF Ezjava1看Java Web参数绑定与条件竞争漏洞挖掘

SITS2026现场直击：LLM-native NLP架构设计原则（含可复用的5层抽象模型图谱）

AHT20温湿度传感器库深度解析与工业级应用实践

Rust的引用计数智能指针Rc与Arc在线程共享中的内部可变性

libhv实战：从零构建一个功能完备的HTTP客户端

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

卷积层的in_channels和out_channels是怎么确定的，以及后一个和前一个输入是怎么确定的

AI Agent Harness Engineering 在电商领域的创新应用

出海小游戏开发周期多久？附流程 + 案例 + 避坑指南

告别“配方黑箱”：璞华易研PLM如何重塑日化美妆行业竞争力？

2007-2020 年税调与关键数字技术专利数据匹配结果

Spring Boot 自动配置原理探秘

终极免费虚拟显示器方案：如何为你的Windows电脑添加10个虚拟屏幕

Flowise效果展示：复杂SQL查询Agent执行结果

基于Python的动漫商城管理系统毕设

计算机视觉模型部署

终极Python大麦抢票神器：告别手动抢票的完整自动化指南

终极大众点评爬虫实战指南：30分钟学会全站数据采集与防封策略