【词汇专栏】多模态（Multimodal）：当 AI 学会用“五种感官“感受世界

张开发

• 2026/4/17 16:05:23 • 15 分钟阅读

分享文章

【词汇专栏】多模态（Multimodal）：当 AI 学会用“五种感官“感受世界

多模态Multimodal当 AI 学会用五种感官感受世界人看图、听歌、读文章用的不是三个独立的大脑而是同一个大脑在处理不同类型的信息。多模态 AI 要做的就是这样——用一个模型同时看“听”“读”。一句话定义多模态Multimodal指 AI 系统能够同时处理和关联多种类型的数据——文本、图像、音频、视频等就像人类用视觉、听觉、语言等多种感官协同理解世界一样。什么是模态Modality模态就是信息的类型或形式人类感知世界的模态 ️ 视觉图像、视频—— 看到的东西听觉语音、音乐—— 听到的声音 ️ 语言文字、对话—— 读到的文字 ✋ 触觉纹理、温度—— 摸到的感觉嗅觉/味觉 —— 闻到和尝到的 AI 目前能处理的模态文本Text—— 最成熟 ️ 图像Image—— 非常成熟音频Audio—— 成熟视频Video—— 快速发展代码Code—— 成熟表格/数据 —— 发展中 3D/动作 —— 早期阶段单模态 AI只能处理一种类型如纯文本的 GPT-3多模态 AI能处理和关联多种类型如 GPT-4o通俗类比从偏科天才到全科天才单模态 AI 偏科的天才 GPT-3语文满分但不会看图、不会听声音 DALL·E画画满分但不会说话、不会做数学 Whisper听力满分但不会说话、不会画画它们各自在自己的领域很强但彼此之间无法沟通多模态 AI 全科天才 GPT-4o能看图、能听声音、能说话、能写代码一个模型同时掌握多种能力而且能在不同模态之间联想和转换你发一张图这是什么品种的猫 → 它能看懂图片用文字回答你多模态的技术实现核心挑战不同模态如何打通文本和图像是完全不同的数据格式文本一只猫 → 离散的字符序列图像[一张猫的照片] → 连续的像素矩阵512 × 512 × 3 786,432个数字它们怎么理解彼此关键技术模态对齐核心思路把不同模态的数据都映射到同一个语义空间文本一只猫 → 文字编码器 → 向量 [0.23, 0.87, ...] 猫的照片 → 图像编码器 → 向量 [0.25, 0.85, ...] ↑ 两个向量非常接近模型就知道它们描述的是同一个东西这个过程叫做模态对齐Modal Alignment是 CLIP 论文本专栏 P08的核心贡献。三种主流架构方式1拼接型Late Fusion 文本模型图像模型 → 各自处理 → 拼接结果 → 简单但模态之间交互不够深方式2交叉注意力型Cross-Attention 文本和图像通过注意力机制直接交互 → 交互更深效果更好BLIP, LLaVA 方式3原生多模态Native Multimodal 从头训练所有模态共享同一个处理框架 → 最先进但训练成本最高GPT-4o, Gemini多模态 AI 的里程碑时间模型意义2021CLIP首次让 AI 建立图文通用语义空间2023GPT-4V首个能看图的主流大模型2023LLaVA开源多模态模型先驱2024GPT-4o实现语音的实时理解与生成2024GeminiGoogle 原生多模态模型2025GPT-4.5 / Claude 3.5多模态能力持续增强2025Qwen-VL / InternVL国产多模态开源模型崛起多模态 AI 能做什么跨模态理解看图说话发一张照片 → AI 描述照片内容这是一只橘猫趴在窗台上晒太阳看图回答发一张表格截图 → AI 提取数据并分析这张表显示Q1营收增长了15%... 看视频理解发一段视频 → AI 总结视频内容这个视频展示了如何制作提拉米苏...跨模态生成文字生图一只穿着宇航服的柯基在月球上 → AI 生成图片文字生视频一朵花从花苞到盛开的延时摄影 → AI 生成视频文字生音乐一首欢快的爵士风格钢琴曲 → AI 生成音乐图生视频一张静态照片 → AI 让照片动起来跨模态转换图转文字拍照 → 提取文字OCR → 识别菜单、路标、文档音频转文字语音 → 转录文字 → 会议记录、字幕生成文字转语音文字 → 合成语音 → 有声书、语音助手图生代码截图 → 生成前端代码 → 设计稿直接变成网页多模态 vs 单模态差别有多大以同一个问题为例问题帮我分析这张财报截图中的营收趋势单模态模型纯文本抱歉我无法看到图片请把数据用文字描述给我。 → 用户需要手动输入数据非常麻烦多模态模型从截图中可以看到 - 2024年Q1营收12.5亿元 - 2024年Q2营收14.8亿元增长18.4% - 2024年Q3营收13.2亿元下降10.8% 整体呈上升趋势Q2表现最佳Q3有所回落... → 直接看图分析无缝体验多模态的当前挑战挑战说明幻觉看了图但描述错误如图中有个红色汽车但其实没有细粒度理解容易忽略图片中的小细节如小字、远处物体视频理解长视频的时序理解仍有困难模态不均衡文本理解远强于其他模态跨模态推理能力有限安全风险图文伪造、深度伪造等多模态安全挑战常见误区误区真相“多模态就是能看图的AI”❌ 多模态是多种模态的统一理解和生成不只是看图“GPT-4V就是多模态的全部”❌ 多模态包括图像、音频、视频、3D等多种模态“多模态已经和人一样了”❌ 人类的多模态感知包含身体感觉、空间理解等仍远超 AI易混淆词辨析多模态 vs 大模型大模型指参数规模大多模态指能处理多种数据类型——GPT-3 是大模型但不是多模态多模态 vs 跨模态多模态指能处理多种模态跨模态指不同模态之间的转换如文字生图一句话总结单模态 AI 像一个只能用一种感官感受世界的天才——GPT-3 能读懂一切文字但看不见图片Midjourney 能画出一切但听不懂指令。多模态 AI 则试图让机器像人一样用多种感官协同理解世界。从 CLIP 打通图文语义到 GPT-4o 实现实时语音对话多模态是 AI 从工具进化为助手的关键一步。延伸阅读论文解读 P08CLIP —— 多模态的里程碑打通图文语义词汇专栏 W12Embedding —— 多模态对齐的技术基础百科 D04GPT-4o —— 实时多模态旗舰标签#AI术语#多模态#Multimodal#GPT-4o#CLIP#图像理解#大模型

【词汇专栏】多模态（Multimodal）：当 AI 学会用“五种感官“感受世界

最新文章

第10课：插件系统模块——实现功能可扩展

2026最权威的降AI率神器解析与推荐

无人机视角稻田识别分割数据集labelme格式869张1类别

YOLO+ByteTrack路口违章抓拍实战：多目标稳定追踪与违章判定

双非逆袭腾讯，不是鸡汤，是一套“补差公式”

FF14自动演奏器实战指南：从零实现你的乐器梦想

推荐文章

⑩【从0制作自己的ros导航小车：上位机篇】05、导航！

从NUSTCTF Ezjava1看Java Web参数绑定与条件竞争漏洞挖掘

SITS2026现场直击：LLM-native NLP架构设计原则（含可复用的5层抽象模型图谱）

AHT20温湿度传感器库深度解析与工业级应用实践

Rust的引用计数智能指针Rc与Arc在线程共享中的内部可变性

libhv实战：从零构建一个功能完备的HTTP客户端

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

PyTorch迁移学习翻车实录：修改SqueezeNet分类头时遇到的‘RuntimeError’及完整修复方案

2025届毕业生推荐的降AI率工具推荐榜单

超越文件对比：Beyond Compare 5 密钥生成终极实战指南

Magnet2Torrent终极指南：简单快速将磁力链接转换为种子文件

千人千面无人考评系统

云端大模型之提示词基本思维

ESP32分区表详解：从零开始理解Flash分区与OTA升级的实现原理

树莓派4B + 海康工业相机：手把手教你搞定Python-OpenCV环境与动态链接库配置（避坑指南）

通达信缠论分析插件：3个步骤实现专业K线可视化

10分钟上手Z-Image-GGUF：零基础Docker镜像部署与WebUI访问

【实物图讲解】硬盘的工作原理笔记

Visual C++运行库一站式解决方案：彻底告别DLL缺失错误的终极指南