OFA模型在SolidWorks工程图理解上的初步探索

张开发

• 2026/4/3 13:40:19 • 15 分钟阅读

分享文章

OFA模型在SolidWorks工程图理解上的初步探索1. 引言如果你在制造业、机械设计或者相关工程领域工作大概率对SolidWorks这个名字不陌生。它几乎是三维机械设计的代名词工程师们用它来构思、建模、装配最终生成用于指导生产的二维工程图。这些图纸就是连接虚拟设计与物理世界的桥梁。然而这些图纸对于计算机来说长期以来都是一堆难以理解的线条和符号。想象一下一个刚入行的工程师或者一个需要处理大量历史图纸文档的团队面对一张复杂的装配图需要花费多少时间去解读它的类型、视图构成和基本信息。这个过程既耗时又容易出错。最近我们尝试了一个有趣的探索能不能让AI来帮我们“看”懂这些工程图我们选择了一个叫做OFA的模型它本身擅长理解图像和文本。虽然让AI完全理解复杂的尺寸标注、公差和剖视图细节还为时过早但我们发现让它先学会“看图说话”识别出图纸的整体类型、主要视图和标题栏里的关键信息是完全可行的。这就像教一个孩子先认出这是一张“房子的图纸”而不是“汽车的图纸”虽然他还看不懂具体的建筑细节。这篇文章我就来分享一下我们是怎么做的遇到了哪些挑战以及这个初步探索能带来哪些实际价值。2. 为什么选择OFA模型来处理工程图在开始动手之前我们得先聊聊为什么选OFA。市面上能做图文理解的模型不少比如CLIP、BLIP等等它们各有千秋。OFA模型有一个挺特别的设计思路它把很多任务比如看图说话、视觉问答、图像描述、文本生成等等都统一到了一个框架里。你可以把它理解成一个“多面手”而不是只精通一件事的“专家”。这种设计让它特别灵活。对于SolidWorks工程图这种任务灵活性很重要。一张图纸我们既希望模型能整体判断它是什么图分类任务又希望它能读出图上的文字信息比如标题栏里的图号、名称还能用自然语言描述一下图纸的视图布局。OFA这种“一个模型干多件事”的能力就非常契合我们的需求。我们不需要为了不同的小任务去串联好几个模型一个OFA可能就能搞定大部分初步分析工作。另一个现实的原因是OFA模型在开源社区里比较活跃相关的代码和预训练模型也比较好获取和部署。这对于我们这种想要快速验证想法的工程探索来说是个很大的优势。当然我们也知道用通用的图像理解模型去处理高度专业化的工程图纸就像用普通望远镜去看微生物肯定会有看不清的地方。工程图有自己严格的国家标准比如GB、行业惯例以及SolidWorks软件特有的出图风格。OFA模型在训练时大概率没见过多少工程图这是我们要面对的核心挑战。3. 我们的探索目标与挑战我们的目标很明确但也足够务实不追求让AI成为高级制图员而是先让它成为一个合格的“图纸分类员和信息提取员”。具体来说我们设定了三个初级目标图纸类型识别让模型能区分出这是一张“零件图”、“装配图”、“钣金展开图”还是“焊接图”。这是最基础的分类。主要视图识别让模型能描述出图纸包含了哪些视图比如“主视图”、“俯视图”、“左视图”、“轴测图3D图”、“剖视图A-A”等。它不需要理解剖视的具体结构只要能认出并说出视图标签就行。标题栏关键信息提取让模型能定位并识别标题栏区域并尝试读取其中的关键文本信息如“图号”、“零件名称”、“材料”、“比例”等。听起来似乎不难但实际操作起来挑战接踵而至。最大的挑战来自于数据的“陌生感”。OFA模型是在海量的自然图像如照片、网络图片和文本上训练的。它熟悉猫狗、风景、人脸但对机械制图中的“粗实线”、“细实线”、“虚线”、“点划线”所代表的不同含义轮廓线、尺寸线、隐藏线、中心线毫无概念。图纸上的文字往往是工程字体且可能因为图纸缩放、打印质量而变得模糊或断线这与模型训练时见到的清晰印刷体相差甚远。其次是图纸结构的复杂性。一张标准的工程图可能包含多个视图、局部放大图、表格如技术要求、明细栏、各种符号粗糙度、形位公差和密密麻麻的尺寸标注。这些元素相互重叠对模型来说是一个极其杂乱的信息场。如何让模型聚焦在“整体布局”和“标题栏”这些关键区域而不是被细节尺寸带偏是个技术难点。最后是专业术语的鸿沟。即使模型识别出了视图它该如何用语言描述“这是一个表达了内部结构的全剖视图”这样的描述需要专业的制图知识。我们初期不得不降低要求让模型先学会说“有一个标着A-A的剖视图”。4. 实践步骤如何让OFA“看懂”图纸面对挑战我们的方法可以概括为“先喂饱再引导”。下面我分步拆解一下这个过程。4.1 数据准备给AI准备“工程图教材”第一步也是最费时费力的一步就是准备数据。我们不可能让模型凭空学会看图纸。我们从内部项目中收集了一批历史SolidWorks工程图格式主要是PDF和DWG。为了确保数据的多样性和代表性我们涵盖了不同复杂度的零件图、装配图以及不同行业的图纸风格。处理流程是这样的格式转换与清理将所有图纸统一转换为高分辨率的PNG或JPG图像。在这个过程中要特别注意保持线条清晰避免因压缩产生过多噪点。人工标注这是核心环节。我们为每张图纸图片制作了对应的“描述文件”。这个描述文件就像图纸的“说明书”里面用简单的语言写着类型装配图视图包含主视图、俯视图、左视图和一个轴测图。主视图上方有一个局部放大图C。标题栏信息图号ASM-2024-001 名称底座装配体材料Q235A 比例1:2构建提示词为了让OFA理解我们的任务我们需要设计固定的“提问”模板。例如我们会把图片和这样的文本提示一起输入给模型“请描述这张工程图它是什么类型的图纸包含了哪些主要视图标题栏中的图号和名称是什么”这个过程相当于为模型编写了一套针对工程图的“图文对照教材”。4.2 模型微调专项培训有了教材就可以开始培训了。我们使用的是OFA的基础预训练模型它已经具备了强大的通用图文理解能力。微调的过程简单说就是用我们准备好的“工程图教材”去继续训练这个模型。在训练过程中模型会不断调整内部的参数努力学会将工程图上的视觉特征线条布局、文字区域与我们标注的文本描述类型、视图、图号关联起来。这里有几个技术细节值得注意图像预处理我们尝试了对图纸图像进行一些增强处理比如提高对比度、进行二值化黑白化以强化线条和文字与背景的区分弱化颜色干扰。提示工程如何设计提示词Prompt直接影响模型输出的质量。我们测试了多种问法比如直接问“描述这张图”和结构化地问“1.类型 2.视图 3.图号”发现结构化的提问更能让模型输出规整的信息。损失函数我们主要使用标准的文本生成损失函数让模型生成的描述尽可能接近我们人工标注的“标准答案”。4.3 推理与测试看看AI学得怎么样训练几轮之后就是激动人心的测试环节了。我们拿出一些训练时没用过的、全新的SolidWorks工程图扔给微调好的OFA模型看它怎么说。测试结果喜忧参半但确实看到了希望。成功的案例对于视图布局规整、标题栏清晰的简单零件图模型的表现相当不错。它能准确地说出“这是一张零件图”并列出“主视图、俯视图、左视图”还能从标题栏中提取出“图号PART-005”和“名称端盖”。遇到的典型问题视图识别混淆对于复杂的向视图或剖视图模型有时会认错或者用泛泛的“另一个视图”来描述。文字识别OCR能力不足标题栏中的文字如果字体过小、旋转或轻度模糊模型很容易读错或漏读。比如把“Q235”读成“0235”。对细节过度关注有时模型会“沉迷”于描述某个局部的尺寸标注细节“有一个标注为Φ20的圆”而忽略了我们对整体结构描述的指令。专业术语生成不稳定它有时能生成“轴测图”有时却只说“3D图”。5. 效果展示与实际价值尽管不完美但这个初步探索已经展现出了一些实实在在的应用价值。让我用两个具体的例子来说明。案例一图纸归档与检索假设一个公司有上万张历史电子图纸存放混乱文件名也不能完全体现内容。传统做法需要人工一张张打开查看并分类。现在我们可以用微调后的OFA模型进行批量处理。模型可以快速为每张图纸生成一个描述文本例如“零件图主视图与左视图图号BKT-001名称支架”。基于这些描述文本我们就可以轻松地建立搜索引擎工程师通过搜索“支架”或“图号BKT”就能瞬间找到图纸效率提升是数量级的。案例二设计评审辅助在新员工培训或跨部门设计评审时面对一张复杂图纸新手可能需要时间梳理。如果系统能自动提供一个初步描述“这是一张复杂的装配图包含爆炸视图共有15个零件编号主要展示了传动部分的结构”这无疑是一个很好的导读能帮助参与者更快地进入状态。目前模型能达到的效果可以总结为以下几点对于标准、清晰的图纸在类型判断和基础视图识别上准确率较高在我们的测试集上约85%。标题栏信息提取对文字清晰度要求高可作为辅助OCR的二次校验工具。生成的自然语言描述虽然简单但已具备可读性和一定的参考价值。它的价值不在于替代资深工程师的深度解读而在于处理那些重复、量大、基础的图纸信息提取工作充当一个不知疲倦的初级助手把人类从繁琐的初筛工作中解放出来。6. 总结回过头来看这次探索我们并没有解决AI理解工程图的所有问题甚至可以说只是触碰了最表层。SolidWorks工程图中蕴含的精确几何信息、公差约束、装配关系等深层语义仍然是横在AI面前的巨大鸿沟。但是这一步迈得很有意义。它验证了像OFA这样的通用多模态模型通过有针对性的“培训”是能够适应像机械制图这样高度专业化领域的。我们搭建了一个从数据处理、模型微调到应用测试的完整Pipeline也摸清了当前方法的边界在哪里。未来如果要继续深入可能需要在几个方向努力一是寻找或构建更大规模、更高质量的工程图数据集二是探索结合专业的OCR引擎和CAD解析工具与视觉模型形成合力三是研究如何让模型理解更复杂的制图标准和语义。对于正在考虑将AI引入研发、制造流程的团队来说这个尝试或许能提供一个思路从一个小而具体的痛点切入比如图纸分类利用现有成熟的AI模型进行快速验证和落地让技术先跑起来创造可见的价值再逐步迭代深化。AICAD的道路很长但我们已经看到了起点处的光亮。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

更多文章

前端开发 2026/4/3 14:52:13

II-Agent全栈Web应用开发实战：从零构建现代化React应用

II-Agent全栈Web应用开发实战：从零构建现代化React应用【免费下载链接】ii-agent II-Agent: a new open-source framework to build and deploy intelligent agents 项目地址: https://gitcode.com/gh_mirrors/ii/ii-agent II-Agent是一个功能强大的开源智能…

RevokeMsgPatcher终极使用指南：彻底解决微信消息撤回烦恼【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode…

张开发

前端开发 2026/4/3 23:01:39

OpenClaw未来展望：Qwen2.5-VL-7B多模态自动化的3个进化方向

OpenClaw未来展望：Qwen2.5-VL-7B多模态自动化的3个进化方向 1. 从图文对话到实时视频处理的技术跃迁去年冬天，当我第一次用OpenClaw调用Qwen2.5-VL-7B模型自动生成产品说明文档时，看着AI自动截取界面元素并生成对应描述，这种图…

张开发

OFA模型在SolidWorks工程图理解上的初步探索

最新文章

从理论到实践：资源分配图（RAG）死锁检测算法的完整实现与优化

聊城本地企业获客服务商推荐与测评（2026版）

告别手机拍照：利用RIGOL UltraSigma实现示波器高质量截图的完整指南

居家办公神器：OpenClaw+Qwen3-14B实现邮件智能处理系统

从硬件基石到软件大脑：BMS电池管理系统的双核进化之路

别被公式吓到！用‘搭积木’的思维图解机器人正运动学（附Python可视化验证）

推荐文章

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

II-Agent全栈Web应用开发实战：从零构建现代化React应用

seo 5118 的成本投入是否高

为什么92%的Python团队在2026年Q1前必须完成AOT迁移：Gartner最新评估报告+3个已上线金融系统崩溃复盘

告别教材下载困境：国家中小学智慧教育平台电子课本解析工具让教学资源获取效率提升85%

OpenClaw隐私保护实践：Qwen3-32B本地化处理敏感数据的配置要点

React Scroll Parallax Hooks深度解析：useParallax和useParallaxController实战

如何通过智能辅助工具实现本地化游戏体验升级？——League-Toolkit全功能解析

Qwen3-ASR-0.6B商业应用：跨境电商多语言商品讲解自动字幕生成

忍者像素绘卷微信小程序增长引擎：生成图带个人ID水印裂变

Kandinsky-5.0-I2V-Lite-5s轻量部署：支持边缘设备（Jetson AGX Orin）初步验证

RevokeMsgPatcher终极使用指南：彻底解决微信消息撤回烦恼

OpenClaw未来展望：Qwen2.5-VL-7B多模态自动化的3个进化方向