MinerU 系列教程 第八课:Office 后端 - DOCX/PPTX 原生解析

张开发
2026/4/18 2:15:43 15 分钟阅读

分享文章

MinerU 系列教程 第八课:Office 后端 - DOCX/PPTX 原生解析
MinerU 系列教程 第八篇本篇教程将深入 Office 后端的原生文档解析机制。前三课分别剖析了 Pipeline、VLM、Hybrid 三种针对 PDF 的解析后端,而 Office 后端走了一条完全不同的路线 —— 直接从 DOCX/PPTX 的 XML 源码中提取结构化内容,无需 OCR、无需版面检测、无需任何 AI 模型。你将看到DocxConverter如何遍历 10 种 OOXML 命名空间解析 Word 文档,PptxConverter如何递归处理幻灯片中的分组形状,以及 Office MagicModel 如何将原始解析结果转换为统一的 Middle JSON。学习目标完成本课学习后,你将能够:理解 Office 后端相比"先转 PDF 再解析"方案的核心优势掌握DocxConverter的 XML 遍历策略及 10 种 OOXML 命名空间的作用理解段落、列表、表格、图像、超链接、公式(OMML)的提取逻辑了解 OMML 到 LaTeX 的数学公式转换原理(oMath2Latex)掌握PptxConverter的幻灯片遍历策略及分组形状递归处理理解 Office MagicModel 的 Caption 自动分类、列表递归解析和目录处理机制读懂

更多文章