【词汇专栏】多模态(Multimodal):当 AI 学会用“五种感官“感受世界

张开发
2026/4/17 16:05:23 15 分钟阅读

分享文章

【词汇专栏】多模态(Multimodal):当 AI 学会用“五种感官“感受世界
多模态Multimodal当 AI 学会用五种感官感受世界人看图、听歌、读文章用的不是三个独立的大脑而是同一个大脑在处理不同类型的信息。多模态 AI 要做的就是这样——用一个模型同时看“听”“读”。一句话定义多模态Multimodal指 AI 系统能够同时处理和关联多种类型的数据——文本、图像、音频、视频等就像人类用视觉、听觉、语言等多种感官协同理解世界一样。什么是模态Modality模态就是信息的类型或形式人类感知世界的模态 ️ 视觉图像、视频—— 看到的东西 听觉语音、音乐—— 听到的声音 ️ 语言文字、对话—— 读到的文字 ✋ 触觉纹理、温度—— 摸到的感觉 嗅觉/味觉 —— 闻到和尝到的 AI 目前能处理的模态 文本Text—— 最成熟 ️ 图像Image—— 非常成熟 音频Audio—— 成熟 视频Video—— 快速发展 代码Code—— 成熟 表格/数据 —— 发展中 3D/动作 —— 早期阶段单模态 AI只能处理一种类型如纯文本的 GPT-3多模态 AI能处理和关联多种类型如 GPT-4o通俗类比从偏科天才到全科天才单模态 AI 偏科的天才 GPT-3语文满分但不会看图、不会听声音 DALL·E画画满分但不会说话、不会做数学 Whisper听力满分但不会说话、不会画画 它们各自在自己的领域很强但彼此之间无法沟通 多模态 AI 全科天才 GPT-4o能看图、能听声音、能说话、能写代码 一个模型同时掌握多种能力 而且能在不同模态之间联想和转换 你发一张图这是什么品种的猫 → 它能看懂图片 用文字回答你多模态的技术实现核心挑战不同模态如何打通文本和图像是完全不同的数据格式 文本一只猫 → 离散的字符序列 图像[一张猫的照片] → 连续的像素矩阵512 × 512 × 3 786,432个数字 它们怎么理解彼此关键技术模态对齐核心思路把不同模态的数据都映射到同一个语义空间 文本 一只猫 → 文字编码器 → 向量 [0.23, 0.87, ...] 猫的照片 → 图像编码器 → 向量 [0.25, 0.85, ...] ↑ 两个向量非常接近 模型就知道它们描述的是同一个东西这个过程叫做模态对齐Modal Alignment是 CLIP 论文本专栏 P08的核心贡献。三种主流架构方式1拼接型Late Fusion 文本模型 图像模型 → 各自处理 → 拼接结果 → 简单但模态之间交互不够深 方式2交叉注意力型Cross-Attention 文本和图像通过注意力机制直接交互 → 交互更深效果更好BLIP, LLaVA 方式3原生多模态Native Multimodal 从头训练所有模态共享同一个处理框架 → 最先进但训练成本最高GPT-4o, Gemini多模态 AI 的里程碑时间模型意义2021CLIP首次让 AI 建立图文通用语义空间2023GPT-4V首个能看图的主流大模型2023LLaVA开源多模态模型先驱2024GPT-4o实现语音的实时理解与生成2024GeminiGoogle 原生多模态模型2025GPT-4.5 / Claude 3.5多模态能力持续增强2025Qwen-VL / InternVL国产多模态开源模型崛起多模态 AI 能做什么跨模态理解看图说话 发一张照片 → AI 描述照片内容 这是一只橘猫趴在窗台上晒太阳 看图回答 发一张表格截图 → AI 提取数据并分析 这张表显示Q1营收增长了15%... 看视频理解 发一段视频 → AI 总结视频内容 这个视频展示了如何制作提拉米苏...跨模态生成文字生图 一只穿着宇航服的柯基在月球上 → AI 生成图片 文字生视频 一朵花从花苞到盛开的延时摄影 → AI 生成视频 文字生音乐 一首欢快的爵士风格钢琴曲 → AI 生成音乐 图生视频 一张静态照片 → AI 让照片动起来跨模态转换图转文字拍照 → 提取文字OCR → 识别菜单、路标、文档 音频转文字语音 → 转录文字 → 会议记录、字幕生成 文字转语音文字 → 合成语音 → 有声书、语音助手 图生代码截图 → 生成前端代码 → 设计稿直接变成网页多模态 vs 单模态差别有多大以同一个问题为例问题帮我分析这张财报截图中的营收趋势 单模态模型纯文本 抱歉我无法看到图片请把数据用文字描述给我。 → 用户需要手动输入数据非常麻烦 多模态模型 从截图中可以看到 - 2024年Q1营收12.5亿元 - 2024年Q2营收14.8亿元增长18.4% - 2024年Q3营收13.2亿元下降10.8% 整体呈上升趋势Q2表现最佳Q3有所回落... → 直接看图分析无缝体验多模态的当前挑战挑战说明幻觉看了图但描述错误如图中有个红色汽车但其实没有细粒度理解容易忽略图片中的小细节如小字、远处物体视频理解长视频的时序理解仍有困难模态不均衡文本理解远强于其他模态跨模态推理能力有限安全风险图文伪造、深度伪造等多模态安全挑战常见误区误区真相“多模态就是能看图的AI”❌ 多模态是多种模态的统一理解和生成不只是看图“GPT-4V就是多模态的全部”❌ 多模态包括图像、音频、视频、3D等多种模态“多模态已经和人一样了”❌ 人类的多模态感知包含身体感觉、空间理解等仍远超 AI易混淆词辨析多模态 vs 大模型大模型指参数规模大多模态指能处理多种数据类型——GPT-3 是大模型但不是多模态多模态 vs 跨模态多模态指能处理多种模态跨模态指不同模态之间的转换如文字生图一句话总结单模态 AI 像一个只能用一种感官感受世界的天才——GPT-3 能读懂一切文字但看不见图片Midjourney 能画出一切但听不懂指令。多模态 AI 则试图让机器像人一样用多种感官协同理解世界。从 CLIP 打通图文语义到 GPT-4o 实现实时语音对话多模态是 AI 从工具进化为助手的关键一步。延伸阅读论文解读 P08CLIP —— 多模态的里程碑打通图文语义词汇专栏 W12Embedding —— 多模态对齐的技术基础百科 D04GPT-4o —— 实时多模态旗舰标签#AI术语#多模态#Multimodal#GPT-4o#CLIP#图像理解#大模型

更多文章