深度学习篇---余弦退火学习率调度

张开发

• 2026/4/18 7:49:30 • 15 分钟阅读

分享文章

一、什么是余弦退火核心思想是让学习率按照余弦函数的形状衰减训练开始时保持较高学习率进行大范围探索随着训练推进平滑地降低到接近零帮助模型精细收敛。数学表达式纯文本描述学习率最小学习率 0.5 × 初始学习率 - 最小学习率 × 1 cos当前步数 / 总步数 × π当前学习率当前这一步的学习率数值。初始学习率训练开始时的最大学习率。最小学习率衰减终点的学习率通常设为 0 或一个极小的值如 1e-6。当前步数从0开始计数的已执行训练步数或轮数。总步数一个完整余弦周期包含的步数。曲线形态从最大值平滑下降末期变化非常平缓斜率几乎为0这非常有利于在极小步长下找到最优解。二、为什么要用余弦形状与常见的阶梯衰减或指数衰减相比余弦退火有几个独特优势对比项阶梯 / 指数衰减余弦退火末期变化率可能突然下降或维持恒定速度末端斜率趋近于0极其平滑对微小最优解的敏感度一般很高能在极小步长下精细搜索热重启潜力无天然支持周期性重启这种平滑性在图像分类、对比学习等任务中表现尤为突出常比传统的阶梯式下降取得更好的准确率。三、重要变体带热重启的余弦退火这是余弦退火最著名的扩展由 Loshchilov Hutter 在2016年提出。普通余弦退火的问题学习率一旦衰减到接近于0训练就基本停滞了。但如果此时模型还没完全收敛到理想状态就无能为力了。热重启的解决思路每经过一个周期比如10个epoch学习率瞬间跳回初始最大值开始新一轮余弦衰减。重启周期通常逐渐拉长第一个周期 10 轮第二个周期 20 轮第三个周期 40 轮 ……或者每个周期长度是前一个的固定倍数例如乘以2。为什么有效每一次重启模型会短暂地以高学习率“跳出”当前的局部极小值区域。然后随着学习率衰减在新的区域内重新收敛。多次重启相当于集成了多个在不同局部最优附近的模型快照Snapshot Ensemble可以在不增加训练成本的情况下提升最终模型的泛化能力。四、实践中需要注意的细节与 Warmup预热结合单纯余弦退火从高学习率直接开始训练初期可能不稳定。通常先做Linear Warmup把学习率从0线性增长到最大值再开始余弦衰减。Transformer类模型几乎必用这个组合。重启周期的设定周期太短频繁跳高模型震荡难以收敛。周期太长退化为普通余弦退火失去重启优势。经验值第一次重启设置在总训练时长的1/4 到 1/3处。保存和恢复状态热重启调度器有内部计数器。中断训练后继续时需要同时保存和恢复调度器的状态字典否则重启节律会被打乱。Batch-level vs Epoch-level大多数情况下按 Epoch轮调度但如果数据集极小或单批次数据量极大按 Step步调度会更精细。五、适用场景场景推荐程度原因图像分类CNN⭐⭐⭐⭐⭐末期平滑下降对精调权重帮助极大。对比学习 / 自监督⭐⭐⭐⭐⭐训练时间极长热重启能维持模型的探索能力。Transformer / LLM 预训练⭐⭐⭐⭐通常必须配合Warmup使用是标准配置之一。GAN 训练⭐⭐生成器和判别器在动态博弈剧烈的学习率跳变可能破坏平衡。强化学习⭐环境本身是非平稳的固定的学习率调度表意义不大。余弦退火策略总结框图流程图文字解读主循环左侧系统在每个训练步都会计算当前应处于余弦曲线的哪个位置得出对应的学习率更新给优化器。周期判断中间菱形检查是否已经跑完了设定的周期总步数。如果没跑完继续按余弦规律衰减。热重启分支右侧如果跑完了且开启了热重启计数器归零周期长度延长学习率瞬间拉满然后再次进入左侧的余弦衰减流程。结束出口底部如果不开启热重启走完一个完整余弦周期后学习率将永久保持在最小值直到训练停止。

深度学习篇---余弦退火学习率调度

最新文章

FigmaCN中文翻译插件：3分钟让Figma界面完全中文化

锂电池电量估算技术与DS1922温度记录器应用

DAMOYOLO-S模型训练技巧揭秘：学习率调度与数据增强策略调优

Makefile入门

终极Stencil性能预算指南：设定与监控组件性能指标的7个实用技巧

cv_unet_image-colorization部署教程：阿里魔搭ModelScope模型加载详解

推荐文章

⑩【从0制作自己的ros导航小车：上位机篇】05、导航！

从NUSTCTF Ezjava1看Java Web参数绑定与条件竞争漏洞挖掘

SITS2026现场直击：LLM-native NLP架构设计原则（含可复用的5层抽象模型图谱）

AHT20温湿度传感器库深度解析与工业级应用实践

Rust的引用计数智能指针Rc与Arc在线程共享中的内部可变性

libhv实战：从零构建一个功能完备的HTTP客户端

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

Samsung LPDDR4X 型号选型指南：从参数到应用场景

Jira 9.1 Docker化部署：从源码编译到容器化运行的全流程

快速上手：Qwen3语义搜索服务，支持自定义知识库实时查询

LT9211芯片实战：如何用新唐N76E003快速配置LVDS转MIPI（附完整代码）

如何通过Python实现剪映自动化：JianYingApi完整指南

网页视频下载不再难：用猫抓Cat-Catch轻松捕获任何在线资源

SITS2026代码补全技术成熟度曲线发布（Gartner风格），第4象限“生产就绪”仅覆盖Java/TS/Python三语言

从零到一：使用 KNX Manufacturer Tool 构建标准设备数据库的实战指南

Wan2.2-I2V-A14B效果展示：同一场景多角度运镜（俯拍/平移/推近）生成

保姆级教程：用GMT6.1绘制专业地形起伏图（从数据下载到出图避坑）

暗黑破坏神2存档编辑器终极指南：3分钟掌握角色自定义技巧

PreScan 8.5.0 启动后MATLAB命令窗口狂刷代码？别慌，这不是卡死！