【极简版】用Claude code将小红书帖子总结为md文档的方法

张开发

• 2026/4/14 8:25:30 • 15 分钟阅读

分享文章

配置系统Windows10电脑Thinkpad浏览器Chrome前提电脑上需要先装上claude code网上教程很多。参考这个方案比较复杂全面实操下来很多内容可以不需要chenxiachan/xhs-claude-skills: Claude Code slash commands for extracting Xiaohongshu posts into Obsidian notes目的喜欢做一些个人的知识沉淀懒得自己打字总结笔记想用AI。不支持大批量。步骤一假设你想要放的位置是D:\claude\xhs\则在这个目录下你需要创建文件D:\claude\xhs\.claude\skills\xhs\SKILL.md内容如下记得修改其中涉及的路径--- name: xhs description: 提取小红书帖子内容文字、图片、视频转录整理为 Markdown 并保存 user-invocable: true argument-hint: 小红书链接 allowed-tools: Bash, Read, Write, Edit, Glob, Grep --- 用户希望提取小红书帖子内容。请按以下步骤处理 ## 常量定义 - Cookies 文件: ./cookies.json从 Chrome 导出的小红书 cookies - Obsidian 保存目录: D:\claude\xhs\ - Whisper 模型: mlx-community/whisper-large-v3-turbo ## 输入用户提供的小红书链接: $ARGUMENTS ## 提取流程 ### 步骤 0检查 Cookies 1. 检查 ./cookies.json 是否存在 2. 如果不存在告知用户需要从 Chrome 导出 cookies - 在 Chrome 打开 xiaohongshu.com 并确认已登录 - 打开 DevTools Console运行以下代码将 cookies 复制到剪贴板 javascript copy(JSON.stringify(document.cookie.split(; ).map(c { const [name, ...rest] c.split(); return { name, value: rest.join(), domain: .xiaohongshu.com, path: /, expires: Date.now()/1000 86400*30, size: name.length rest.join().length, httpOnly: false, secure: false, session: false, priority: Medium, sameParty: false, sourceScheme: Secure, sourcePort: 443 }; }))) - 将剪贴板内容保存到 ./cookies.json - 然后终止流程等用户完成后重新运行 ### 步骤 1解析链接从 URL 中提取帖子 ID24 位十六进制字符串和 xsec_token 参数。 ### 步骤 2获取帖子内容使用 Python 脚本通过 Cookies 请求帖子页面 HTML从 window.__INITIAL_STATE__ 解析全部帖子数据 python import json import re import sys import requests from requests.adapters import HTTPAdapter from urllib3.util.retry import Retry # 读取 cookies.json格式[{name: ..., value: ..., ...}, ...] with open(./cookies.json) as f: cookies_list json.load(f) # 转换为 requests 可用的字典格式 cookies_dict {c[name]: c[value] for c in cookies_list} url sys.argv[1] # 配置会话带重试机制 session requests.Session() retries Retry(total2, backoff_factor0.5, status_forcelist[500, 502, 503, 504]) session.mount(https://, HTTPAdapter(max_retriesretries)) headers { User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36, Referer: https://www.xiaohongshu.com/, Accept: text/html,application/xhtmlxml,application/xml;q0.9,image/avif,image/webp,image/apng,*/*;q0.8, Accept-Language: zh-CN,zh;q0.9,en;q0.8, Accept-Encoding: gzip, deflate, br, Sec-Ch-Ua: Google Chrome;v131, Chromium;v131, Not_A Brand;v24, Sec-Ch-Ua-Mobile: ?0, Sec-Ch-Ua-Platform: macOS, Sec-Fetch-Dest: document, Sec-Fetch-Mode: navigate, Sec-Fetch-Site: same-origin, Sec-Fetch-User: ?1, Upgrade-Insecure-Requests: 1, Cache-Control: max-age0, } # 发送请求禁用 SSL 验证模拟原 urllib 行为 response session.get(url, headersheaders, cookiescookies_dict, timeout15, verifyFalse) response.encoding utf-8 html response.text # 提取 window.__INITIAL_STATE__ m re.search(rwindow\.__INITIAL_STATE__\s*\s*(\{.?\})\s*/script, html, re.DOTALL) if not m: print(ERROR: Could not find window.__INITIAL_STATE__, filesys.stderr) sys.exit(1) raw m.group(1).replace(undefined, null) data json.loads(raw) # 帖子数据在: data[note][noteDetailMap][key][note] # 包含: title, desc, type, time, user, imageList, video, interactInfo, ipLocation 如果请求失败被重定向到 404/错误页说明 cookies 过期提示用户按步骤 0 重新导出。 ### 步骤 3视频转录仅视频帖子如果帖子 type 为 video执行以下子步骤 #### 3a. 提取视频 URL 从步骤 2 获取的数据中解析视频流 note[video][media][stream] - 按 h264 h265 av1 优先级取第一个的 masterUrl #### 3b. 下载视频并提取音频 bash curl -L -o D:/claude/xhs/tmp/xhs_{post_id}.mp4 -H Referer: https://www.xiaohongshu.com/ 视频URL ffmpeg -y -i D:/claude/xhs/tmp/xhs_{post_id}.mp4 -vn -acodec pcm_s16le -ar 16000 -ac 1 D:/claude/xhs/tmp/xhs_{post_id}.wav #### 3c. 语音转录 python import mlx_whisper result mlx_whisper.transcribe(D:/claude/xhs/tmp/xhs_{post_id}.wav, path_or_hf_repomlx-community/whisper-large-v3-turbo, languagezh, verboseFalse) #### 3d. 清理转录文本 - 去除尾部重复字符背景音乐噪音 - 按语义断句添加标点和段落 - 如有步骤/要点结构用 Markdown 格式化 #### 3e. 清理临时文件 bash rm -f D:/claude/xhs/tmp/xhs_{post_id}.mp4 D:/claude/xhs/tmp/xhs_{post_id}.wav ### 步骤 4整理输出并保存将内容整理为 Markdown 文件保存到 Obsidian 保存目录/{YYYY-MM-DD} {短标题}.md。 - 文件名格式{发布日期} {短标题}.md短标题不超过15个字是核心洞察的极简概括 - 日期前缀确保按时间排序 - 不创建子目录所有帖子 md 直接放在 xhs 文件夹下 - 媒体文件统一放在 Obsidian 保存目录/img/ 或 Obsidian 保存目录/video/ **写作风格Peter Thiel 式——直接、反直觉、一句话给判断。笔记是决策工具不是知识库。用户扫一眼就能决定深挖还是跳过。** 文件结构**无 YAML frontmatter** markdown # 一句话核心洞察反直觉的判断不是描述性标题核心论点2-3句话。直接给出大多数人觉得X但其实Y的判断。不废话不铺垫像 Thiel 在董事会上说话。 **与我的关联** 一句话。读取用户的 memory~/.claude/projects/*/memory/ 下的 user 和 project 类型记忆了解用户背景、研究方向和当前工作据此说清楚这个内容跟用户有什么关系。如果 memory 不可用从通用的个人发展/工具/方法论角度切入。 **值得深挖吗** 是/否。一句话理由。 [!tip]- 详情帖子核心内容的结构化整理折叠状态点开才看到 - 从 desc 和视频转录中提炼清理 #xxx[话题]# 标记 - 按逻辑结构分节保留关键数据和结论 - 图片用 ![图N](urlDefault) 嵌入 - 视频帖子在此处放整理后的转录内容 [!info]- 笔记属性 - **来源**: 小红书 · 作者名 - **帖子ID**: xxx - **链接**: 原始链接 - **日期**: YYYY-MM-DD - **类型**: image/video - **互动**: N赞 / N收藏 / N评论 - **标签**: 标签1, 标签2, ... 关键约束 - 折叠区域外的可见内容**不超过 6 行** - 标题必须是洞察/判断不是XX帖子的总结 - 图片使用 urlDefault 字段的 URL步骤二在这个文件夹xhs下打开claude code命令行方式cc会自动扫描这个skill。你只需在命令行中输入/xhs 小红书帖子链接即可运行。第一次的时候需要按提示在chrome浏览器中登录小红书并在相应位置一般就是根目录新建cookies.json文件。效果目录下新增分析后的文件。注意1. 感觉运行时间比较长我的尝试中一个帖子解析用时7分钟用的是glm47的模型。2. 小红书反爬机制貌似挺强大的所以这个cookies可能需要经常更新手动。3. 这个skill的注册是按项目的你换个项目文件夹就没有这个skill了但其实只需要把这个SKILL.md复制到新目录的.claude/skills/xhs/即可。不过个人感觉这样更灵活自由。4. SKILL.md中的内容和原作者相比有一些修改主要是代码的部分。其实自然语言处理逻辑也可也根据自己的偏好去修改。

更多文章

前端开发 2026/4/14 8:20:15

Langchain4j（4）RAG之入门示例

RAG（检索增强生成）： 把你的文档（PDF/Word/TXT/Excel）切成一段段转成向量（Embedding）存在向量库用户提问时，先去向量库里检索相关内容把检索到的内容丢给 AI，让 AI 只根据…

Zotero中文文献管理革命：茉莉花插件如何让元数据抓取效率提升10倍【免费下载链接】jasminum A Zotero add-on to retrive CNKI meta data. 一个简单的Zotero 插件，用于识别中文元数据项目地址: https://gitcode.com/gh_mirrors/ja/jasminum 作为…

张开发

前端开发 2026/4/14 8:13:17

ncmdump终极教程：3步轻松解密网易云音乐NCM格式文件

ncmdump终极教程：3步轻松解密网易云音乐NCM格式文件【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否遇到过这样的困扰？从网易云音乐下载的音乐只能在特定App中播放，无法在其他设备或播放器上…

张开发

【极简版】用Claude code将小红书帖子总结为md文档的方法

最新文章

KT148A语音芯片驱动8欧0.5W喇叭音量提升方案：换喇叭与外挂功放实战指南

造相 Z-Image 部署案例：为新闻媒体快速生成时政报道配图与信息图素材

VSCode高效配置MQL开发环境：从插件安装到实战编译

嘉立创EDA PCB设计中的高效对齐与等间距技巧

GitHub中文界面终极指南：3分钟让GitHub全面中文化的完整教程

AKTools技术架构解析：构建跨语言财经数据API网关的3个核心策略

推荐文章

⑩【从0制作自己的ros导航小车：上位机篇】05、导航！

从NUSTCTF Ezjava1看Java Web参数绑定与条件竞争漏洞挖掘

SITS2026现场直击：LLM-native NLP架构设计原则（含可复用的5层抽象模型图谱）

AHT20温湿度传感器库深度解析与工业级应用实践

Rust的引用计数智能指针Rc与Arc在线程共享中的内部可变性

libhv实战：从零构建一个功能完备的HTTP客户端

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

Langchain4j（4）RAG之入门示例

Ostrakon-VL-8B集成Node.js实战：构建智能图片描述REST API

如何用3行命令从视频中智能提取PPT幻灯片？

以防你不知道桌面图标变白怎么搞

当LLM推理延迟波动达±400ms，你的Agent还能准时交付吗？——2026奇点大会AIAgent弹性调度模型深度拆解（含实时反馈控制环数学推导）

LiuJuan20260223Zimage实战：用Gradio搭建简易前端，轻松调用文生图模型服务

SenseVoiceSmall实战测评：多语言富文本识别到底有多好用？

3步快速解密微信聊天记录：WechatDecrypt终极指南

ncmdump终极指南：轻松解锁网易云音乐NCM加密格式

Blender 3MF格式插件终极指南：轻松实现3D打印文件导入导出

Zotero中文文献管理革命：茉莉花插件如何让元数据抓取效率提升10倍

ncmdump终极教程：3步轻松解密网易云音乐NCM格式文件