Qwen VL 三代架构深度对比:从 Qwen2-VL 到 Qwen3-VL,每一代改了什么?

张开发
2026/4/6 12:03:47 15 分钟阅读

分享文章

Qwen VL 三代架构深度对比:从 Qwen2-VL 到 Qwen3-VL,每一代改了什么?
摘要三代视觉语言模型的架构演进全景从 MRoPE 到 Interleaved-MRoPE从固定层 ViT 到 DeepStack 多层融合从绝对时间戳到文本 Timestamp Token——每一代的核心改动、设计动机与技术细节。从 Qwen2-VL 到 Qwen3-NeXT 的完整代码实现如下 https://github.com/MindIntels/omni_qwen一、三代演进时间线Qwen2-VL2024.09——奠基代引入MRoPE多模态旋转位置编码首次在单一框架中统一处理文本、图像、视频的位置信息。动态分辨率 ViT全局 Full Attention所有层LayerNorm GELU。固定 FPS 视频采样相对帧索引时间编码。模型规格2B / 7B / 72B Dense关键标签MRoPE 首次引入 · 动态分辨率 ViT · 全局 Full Attention · GELU LayerNormQwen2.5-VL2025.01——效率优化代ViT 切换为Window Attention 主导每4层1次 Full计算复杂度从 O(n²) 降到 O(n)。激活函数/归一化与 LLM 统一SwiGLU RMSNorm去掉 QKV bias。时间编码升级为绝对时间戳真实秒数Dynamic FPS 自适应采样。预训练数据从 1.2T → 4T tokens。模型规格3B / 7B / 32B / 72B Dense关键标签Window Attention O(n) · SwiGLU RMSNorm 统一 · 绝对时间戳 T-RoPE · Dynamic FPS · 4T tokens 预训练Qwen3-VL2025.11——推理能力代三大架构升级Interleaved-MRoPE频谱均衡修复长视频位置偏差DeepStackViT 多层特征注入 LLM 前3层无额外序列长度文本 Timestamp Token替代绝对时间编码精确时序定位视觉编码器改用 SigLIP-2 架构预训练初始化上下文扩展到 256K。引入 Thinking / Non-Thinking 双模式新增 MoE 变体30B-A3B / 235B-A22B。训练损失改为 Square-Root 归一化平衡文本与多模态。模型规格2B / 4B / 8B / 32B Dense 30B-A3B / 235B-A22B MoE二、整体架构对比Qwen2-VL 架构流程输入 → 动态分辨率 ViT全局 Full Attention / GELULayerNorm → MLP Merger2×2聚合 → MRoPET|H|W 分段相对帧索引 → Qwen2 LLMGQASwiGLU2/7/72B → 输出Qwen2.5-VL 架构流程输入Dynamic FPS→ 动态分辨率 ViTWinFull混合 / SwiGLURMSNorm → MLP Merger2×2聚合 → MRoPET/H/W分段绝对时间戳 → Qwen2.5 LLMGQASwiGLU3/7/32/72B → 输出Qwen3-VL 架构流程输入Dynamic FPS→ SigLIP-2 ViT预训练初始化WinFull混合 ├─ Layer 1/3 特征低级视觉→ 专用 Merger 1 → LLM Layer 1 ├─ Layer 2/3 特征中层语义→ 专用 Merger 2 → LLM Layer 2 └─ Layer 3/3 特征最终输出→ 主 Merger → LLM Layer 3标准路径 → Interleaved-MRoPE频谱均衡 文本 Timestamp Token → Qwen3 LLMQK-Norm / MoE变体2/4/8/32B MoE → Thinking / Non-Thinking 输出DeepStack 的三层特征直接加到 LLM 第1/2/3层的 hidden states无额外序列长度开销。三、全量特性对比矩阵Vision Encoder特性Qwen2-VLQwen2.5-VLQwen3-VLViT 架构从头训练动态分辨率从头训练动态分辨率SigLIP-2预训练初始化continue training注意力类型100% Full AttentionO(n²)WindowFull 混合约3:1O(n)WindowFull 混合继承2.5激活函数GELUSwiGLU与LLM统一SwiGLU继承2.5归一化LayerNormRMSNorm与LLM统一RMSNorm继承2.5ViT多层特征利用仅最后一层输出仅最后一层输出DeepStack前/中/后三层特征注入LLM前3层patch stride14×14 pxstride1414×14 pxstride1432 的倍数对齐vs 28视觉-语言连接器特性Qwen2-VLQwen2.5-VLQwen3-VLMerger 结构2×2 MLP2层Linear2×2 MLP相同2×2 MLP主 DeepStack 专用 Merger×3序列压缩比÷4空间2×2聚合÷4÷4主路径不变位置编码特性Qwen2-VLQwen2.5-VLQwen3-VL框架MRoPE首次引入T/H/W 分段占据不同频段MRoPE继承增强时间维Interleaved-MRoPET/H/W 交错分布频谱均衡频谱问题存在T/H/W分段导致偏差存在相同分段策略解决交错分布确保低高频均衡图像坐标绝对像素行列索引绝对像素行列索引绝对像素行列索引视频时间编码特性Qwen2-VLQwen2.5-VLQwen3-VL时间表示方式相对帧索引default interval1T-RoPE 绝对时间戳真实秒数×10文本 Timestamp Token3.0 seconds长视频时间稀疏问题不存在相对索引存在长视频 position_id 稀疏解决文本Token不受 position_id 稀疏影响视频采样固定 FPSDynamic FPS自适应Dynamic FPS继承时间戳格式无文本时间戳无文本时间戳秒 HMS 双格式文本01:23:45LLM Backbone特性Qwen2-VLQwen2.5-VLQwen3-VLLLM 系列Qwen2Qwen2.5Qwen3QK-Norm, 去bias模型规格2B / 7B / 72B Dense3B / 7B / 32B / 72B Dense2B/4B/8B/32B Dense 30B-A3B / 235B-A22B MoEMoE 支持无无✓首次引入推理模式标准生成标准生成Thinking / Non-Thinking 双模式上下文与训练特性Qwen2-VLQwen2.5-VLQwen3-VL最大原生上下文32K tokens32K tokens256K tokens8× 提升预训练数据量~1.2T tokens~4T tokens~2T tokens VL 大量文本质量优化训练损失函数Per-sample CE LossPer-sample CE LossSquare-Root 归一化 per-token loss后训练策略SFT RLHFSFT DPOSFT CoT 知识蒸馏 RL 三阶段四、Vision Encoder 三代详解Qwen2-VL全局 Full Attention ViT从头训练动态分辨率输入H/W 为 14 的倍数。注意力所有层均使用全局 Full Attention复杂度 O(N²)高分辨率图像计算量极大归一化LayerNorm标准 ViT 设计激活GELU与 LLM 的 SwiGLU 不一致特征利用仅取最后一层输出大量中间层语义信息被丢弃Qwen2.5-VLWindowFull 混合 ViT效率大幅提升仍从头训练与 2-VL 主架构相同关键改动注意力Window Attention 为主每3层 Full Attention每4层1次整体复杂度降至 O(N)窗口大小 8×8 patches112×112 px归一化改为 RMSNorm与 Qwen2.5 LLM 统一激活改为 SwiGLU与 LLM 统一特征分布更一致特征利用仍仅最后一层Qwen3-VLSigLIP-2 架构 DeepStack 多层融合ViT 架构替换改用 SigLIP-2 架构从官方预训练权重初始化后继续训练非从头训练。大模型8B/32B/MoE用 SigLIP2-SO-400M小模型2B/4B用 SigLIP2-Large-300M窗口对齐输入图像 H/W 改为 32 的倍数2.5-VL 为 28 的倍数多层特征DeepStack 核心从 ViT 的第 1/3、2/3、3/3 层提取中间特征通过专用 Merger 注入 LLM 第 1/2/3 层——低层捕捉纹理/边缘高层捕捉语义五、位置编码MRoPE → Interleaved-MRoPEQwen2-VLMRoPE原始分段版将 head_dim 分为三段[T 段 | H 段 | W 段]T 维使用一个频率范围H/W 维使用另一个。⚠️ 问题频谱不均衡。T、H、W 三个维度的低频/高频覆盖范围不同导致长视频中高频位置信息丢失长距离时间依赖建模退化。Qwen2.5-VLMRoPE 绝对时间戳改进沿用分段频谱设计关键改进在时间语义T 维的 position_id 从相对帧索引改为绝对时间戳真实秒数×10精度0.1秒分辨率。例第 3.5 秒的帧 → T position_id 35⚠️ 遗留问题长视频中绝对时间戳会产生极大稀疏的 position_id如 1 小时视频 T_id 可达 36000使 RoPE 频谱外推困难。Qwen3-VLInterleaved-MRoPE频谱均衡将 T/H/W 三个分量交错分布在 head_dim 上[T₀ H₀ W₀ T₁ H₁ W₁ ... Tₙ Hₙ Wₙ]每个维度同时覆盖从低频到高频的完整频段消除频谱偏置。✓ 效果长视频的时间位置建模更准确远距离帧间关系得以保留。同时修复了 Qwen2-VL / 2.5-VL 在长视频理解基准上的退化问题。代码对比# Qwen2/2.5-VL分段T/H/W 各占连续区间 q_t q[..., :43] # T 维独占低到中频 q_h q[..., 43:86] # H 维独占中到高频 q_w q[..., 86:] # W 维独占高频 q_rot_old concat(rope_t(q_t), rope_h(q_h), rope_w(q_w)) # Qwen3-VL交错T/H/W 交替分布各自覆盖完整频谱 q_t q[..., 0::3] # 取 index 0,3,6,9... → 覆盖全频谱 q_h q[..., 1::3] # 取 index 1,4,7,10... q_w q[..., 2::3] # 取 index 2,5,8,11... q_rot_new interleave(rope_t(q_t), rope_h(q_h), rope_w(q_w))六、DeepStackQwen3-VL 独有的多层 ViT 融合核心动机ViT 最后一层仅捕获高层语义特征这是一只猫而低层特征边缘、纹理、颜色在 Qwen2/2.5-VL 中被完全丢弃。DeepStack 从 ViT 的多个中间层提取特征将多级视觉信息注入 LLM提升细粒度视觉-语言对齐能力如文档中精细字体、数学公式细节。DeepStack 信息流ViT 内部32层Layer 1–10低层纹理/边缘 ──→ 专用 Merger 1 ──→ LLM Layer 1 低层特征 Layer 11–20 跳过 Layer 21中层局部语义 ──→ 专用 Merger 2 ──→ LLM Layer 2 中层特征 Layer 22–31 跳过 Layer 32最终高层语义 ──→ 主 Merger ──→ LLM Layer 3 高层特征 LLM Layer 4–N正常处理关键设计DeepStack 的多层特征通过加法直接注入 LLM 的 hidden states不增加额外序列长度区别于 Cross-Attention 或 Token 拼接方式。每个层级有独立的轻量 Merger 模块做维度对齐d_vit → d_llm。七、视频时间编码三代演进Qwen2-VL相对帧索引时间 position_id 使用相对帧号0, 1, 2, ...默认帧间距 interval1。Frame 0 → T0 Frame 1 → T1 Frame N → TN无法区分 1秒后 和 10秒后帧间真实时间信息丢失。适合简单视频理解不适合时间定位任务。Qwen2.5-VL绝对时间戳T-RoPET position_id 真实时间秒× 10精度 0.1 秒。3.5s 帧 → T 35 10.0s 帧 → T 100 3600s 帧 → T 36000⚠️ 长视频问题T36000 这样超大 position_id 使 RoPE 外推困难且训练数据需均匀分布各种帧率构建成本高。Qwen3-VL文本 Timestamp Token彻底解决方案每帧组前插入文本时间戳 Token完全脱离 position_id3.0 seconds [frame patches] 00:01:23 [frame patches]✓ 优势任意长视频时间戳表示无上限HMS 和秒格式双训练理解多样时间表示时序信息直接在语言空间建模更易泛化。八、LLM Backbone 三代升级Qwen2-VLQwen2 BackboneGQA · SwiGLU · RMSNorm · QKBiasQwen2 系列语言模型。GQA 注意力SwiGLU FFNRMSNorm。含 QKV bias。Dense 变体2B / 7B / 72B。无推理增强标准生成。Qwen2.5-VLQwen2.5 BackboneGQA · SwiGLU · RMSNorm · No QKBiasQwen2.5 系列去掉 QKV bias更高效。Dense 变体扩充3B / 7B /32B/ 72B。预训练数据更丰富4T tokens语言能力显著提升。无推理增强模式仅标准生成。Qwen3-VLQwen3 BackboneGQA · SwiGLU · RMSNorm · QK-Norm · MoEQwen3 系列新增 QK-Norm稳定 attention logits。Dense2B / 4B / 8B / 32B。MoE 首次引入30B-A3B64专家激活8/ 235B-A22B128专家激活8双模式ThinkingCoT 推理链 Non-Thinking直接输出上下文扩展到 256K九、训练策略演进对比预训练阶段设计训练阶段Qwen2-VLQwen2.5-VLQwen3-VLStage 0 对齐Merger 对齐冻结ViTLLMMerger 对齐冻结ViTLLMMerger 对齐 67B tokens8K ctxStage 1 全参预训练~1.2T tokens8K ctx~4T tokens8K ctx~1T tokens8K ctxStage 2 长上下文—长上下文扩展~1T tokens32K ctxStage 3 超长上下文——100B tokens256K ctx损失函数Per-sample CEPer-sample CE√ 归一化 per-token CE平衡文本/多模态后训练SFT RLHFSFT DPOCoT SFT → 知识蒸馏 → RLQwen3-VL 损失函数改进Square-Root 归一化原始 per-sample 损失导致长图像序列多 Token的样本主导梯度短文本样本被忽视造成多模态与文本能力失衡。Square-Root 归一化将每个样本的 token 数量以 √N 缩放而非线性缩放使长序列和短序列的梯度贡献更均衡文本基础能力不因多模态训练而退化。十、基准性能趋势7B/8B 规格对比以下为同等参数量级~7-8B Dense的性能趋势绝对分数以官方报告为准。基准Qwen2-VLQwen2.5-VLQwen3-VLMMMU多学科VQA54.158.670.2MathVista视觉数学58.268.379.4DocVQA文档理解94.596.497.1Video-MME视频理解63.367.276.8MMStar综合感知60.764.172.2MathVision视觉数学难16.319.238.1Qwen3-VL 在视觉数学难题MathVision上提升最为显著从 16.3 → 38.1接近翻倍这与引入 Thinking 模式CoT 推理密切相关。十一、三代改进要点总结Qwen2-VL奠基代核心贡献MRoPE 首次提出多模态统一位置编码T/H/W 三维框架动态分辨率 ViT无需固定 resizetoken 数动态变化MLP Merger 2×2简单有效的视觉-语言连接器局限全局 Full Attention 效率低GELU/LayerNorm 与 LLM 不统一时间编码为相对索引。Qwen2.5-VL效率优化代核心改进Window AttentionO(n²)→O(n)高分辨率图高效处理统一组件设计SwiGLURMSNorm 与 LLM 对齐绝对时间戳编码T-RoPE 赋予秒级时序语义Dynamic FPS适应性视频采样支持长视频局限MRoPE 频谱不均衡问题未解决ViT 仅最后层特征长视频 T_id 稀疏问题。Qwen3-VL推理能力代核心突破Interleaved-MRoPE修复频谱偏置长视频位置建模质量大幅提升DeepStackViT 多层特征注入低中高级视觉信息全部利用无额外序列开销文本 Timestamp Token彻底解决长视频时间稀疏问题支持 HMS 格式SigLIP-2 ViT预训练初始化更强视觉表示基础256K 原生上下文4阶段渐进训练覆盖超长文档/视频Thinking 模式CoT 推理大幅提升视觉数学等难任务MoE 扩展235B-A22B 实现旗舰级多模态性能参考来源Qwen2-VL (arXiv:2409.12191)Qwen2.5-VL (arXiv:2502.13923)Qwen3-VL (arXiv:2511.21631)

更多文章