TouchAnything发布！这次egocentric隐藏的触觉数据和模型都开源了，300项任务......

张开发

• 2026/4/8 16:36:46 • 15 分钟阅读

分享文章

TouchAnything发布！这次egocentric隐藏的触觉数据和模型都开源了，300项任务......

现在机器人学会“看”和“听”下一步是让它拥有“触觉”。但是触觉数据的获取并不容易…随着Ego4D等大规模第一人称数据集的提出基于第一人称ego-centric视频数据的具身学习受到了广泛关注。相比传统的真机遥操作数据集ego-centric数据在采集成本、视角覆盖以及交互自然性等方面具有显著优势能够更加真实地反映人类与环境的交互过程因而逐渐成为该领域的重要发展方向。然而现有的ego-centric数据集普遍缺乏人类与环境交互中至关重要的一种模态信息——触觉模态。这一关键模态的缺失使得现有模型难以建模机器人与物理世界之间的接触与力学交互。即便是在抓取、搬运等基础操作任务中缺乏触觉信息也会导致系统难以判断接触是否稳定或操作是否成功从而限制了模型在真实场景中的应用能力。为了解决上述问题哈尔滨工业大学深圳杨朔教授团队提出了业内首个基于第一人称视角的多模态触觉数据集EgoTouch。该数据集同步采集了第一人称视觉信息、双手腕视角视频、双手全掌高分辨率触觉信号以及双手多关节三维位姿数据实现了视觉与触觉的紧密对齐。在此基础上团队进一步研发了首个基于第一人称视频的双手触觉估计模型TouchAnything为从视觉推理触觉信息提供了新的技术路径。我们也将其收录到具身智能之心开源知识库内欢迎学习EgoTouch数据集概览EgoTouch数据集具有以下关键特性多视角结合双手全掌触觉EgoTouch是首个将第一人称视角与双手腕部视角的多视角视频与双手全掌真实触觉压力数据进行同步采集的数据集。第一人称相机提供全局操作语境而腕部相机补充了常被遮挡的手物接触细节。密集且连续的全掌压力EgoTouch提供了由可穿戴触觉采集手套提供的精确压力分布数据。极丰富场景的双手操作EgoTouch数据集提供了超过300项手部精细操作任务涵盖抓取按压工具使用双手协调等同时包括室内室外商业等丰富的环境场景。全模态数据且时间同步所有模态均进行了逐帧时间对齐包括三视角视频双掌压力图双手手部精确位姿42个关节。1. 与现有数据集相比EgoTouch提供了最全面的模态信息EgoTouch数据集包含室内室外等丰富环境信息包含双掌的全掌精确压力触觉信息操作物品类型超1000种总数据超过两百万帧。2. EgoTouch有着极其丰富的任务和场景分布总体任务被分为居家工坊办公零售户外等五个场景类别每个类别都包含丰富的任务类型。3. 提供了一种可复现的标准化具身灵巧操作全模态数据采集流程下图展示了杨朔团队设计的标准数采方案包括三个可穿戴式摄像头一双Rokoko手部关节动捕手套三个HTC_Vive定位追踪器和一双压力触觉手套。模型架构在EgoTouch数据集的基础上哈工深杨朔团队实现了一种多视角触觉预测模型TouchAnything建立了该任务的基准方法。该模型使用DINOv2作为视觉骨干设计了可学习的视角嵌入和跨视角的交叉注意力机制。即使在缺失视角如只有ego视角时也可以提供相对准确的触觉预测。实验结果展示下列视频与图片展示了TouchAnything模型的具体推理结果可以看到模型能够准确预测出触觉信息在手掌中的分布情况多视角拔插充电器双手抛接网球单手鼠标操作视频详情多视角输入可以提升触觉预测准确性实验结果表明多视角输入能够提升触觉预测性能。相比仅使用第一人称视角ego-centric融合左右手腕视角的多视角输入在已见与未见物体设置下均取得一致的性能提升其中三视角联合输入EgowLwR在Temporal_Accuracy、Contact_IoU、Volumetric_IoU和MAE等指标上表现最佳。这一提升主要源于不同视角的互补性第一人称视角提供整体交互语境而手腕视角能够补充被自遮挡的接触细节尤其在抓取和施力阶段有助于更准确地恢复触觉分布。数据规模提升显著增强触觉预测性能实验结果表明模型性能随训练数据规模呈现出稳定的扩展趋势scaling_behavior。随着数据比例从25%提升至100%Contact_IoU与Volumetric_IoU持续提升而MAE逐步降低且在未见物体上的提升同样显著。这说明所提出方法能够有效从大规模数据中学习鲁棒的视觉-触觉映射关系并具备较强的跨对象泛化能力。展望触觉模态可能是具身智能领域当前最需要的一块拼图。在多模态大模型飞速发展的当下具身机器人缺乏的是和物理世界精细交互的触觉信息信息。EgoTouch数据集为当前具身灵巧操作领域提供了稀缺的触觉信息。同时TouchAnything又为现有第一人称视角数据集提供了全新的触觉预测方法进一步提升了对于第一人称视角信息的利用效率。研究团队认为灵巧操作或许是具身智能急需攻克的下一个技术难关而触觉模态将会发挥主导作用为高难度的精细操作提供最直接的反馈。另一方面在World_Action_Model越发引人关注的当下触觉模态也可以为世界模型提供关键的力学信息共同构建高置信的状态预测和可靠的动作生成。论文标题TouchAnything: A Dataset and Framework for Bimanual Tactile Estimation from Egocentric Video作者介绍Jianyi Zhou, Ziteng Gao, Feiyang Hong, Zirui Liu, Guannan Zhang, Weisheng Dai, Ruichen Zhen, Haotian Wu, Yinian Mao, Xushi Wang, Yuxiang Jiang, Shuo Yang通讯作者shuoyanghit.edu.cn实验室名M-PAI Lab, HITSZ项目地址https://jianyi2004.github.io/TouchAnything-Website/

更多文章

前端开发 2026/4/8 16:34:44

【深度学习新浪潮】国产基础模型研发进展全景：从跟跑到领跑的历史性跨越

2026年3月27日，中关村论坛人工智能主题日发布权威数据：中国大模型日均token调用量突破140万亿，首次超越美国，成为全球AI调用第一大市场。这一里程碑标志着国产基础模型在技术实力、产业应用和市场规模上实现全面崛起。本文基于国家数据局、博鳌亚洲论坛和各大科技企业官方发…

Intv_AI_MK11 管理 Linux 服务器：通过自然语言执行运维命令 1. 创新运维方式的革命性突破想象一下，当你需要管理Linux服务器时，不再需要记忆复杂的命令行语法，只需像和朋友聊天一样说出你的需求。这正是Intv_AI_MK11带来的变革…

张开发

前端开发 2026/4/8 16:14:08

【AI】图像识别类任务汇总

1. 基础识别任务名称描述例子二分类任务一个类别标签，无法检测目标位置，难度★猫狗图片分类多分类任务一个类别标签，无法检测目标位置，难度★手写数字识别多标签分类任务多个类别标签，无法检测目标位置，难度…

张开发

TouchAnything发布！这次egocentric隐藏的触觉数据和模型都开源了，300项任务......

最新文章

C++编程中的异常处理机制：try/catch/throw详解

【更新至2024年】2000-2024年各省人口密度数据（无缺失）

SVA断言实战指南：从基础语法到复杂时序验证

使用ffmpeg+python实现自动给视频添加移动水印

ClickHouse 性能调优与典型故障排查实战

Mac鼠标滚轮终极优化方案：Mos让你的外接鼠标体验媲美原生触控板

推荐文章

突破手游操控瓶颈：QtScrcpy虚拟映射技术全解析

Flutter Riverpod：状态管理的新纪元

WintunAdapter 设计解析：一个 VNP 数据面的无锁优雅实现

Arduino二进制模拟时钟库：LED阵列驱动的轻量级时间可视化方案

RP2040硬件加速步进电机控制库picoasyncstepper

minimal-json：嵌入式C语言轻量级JSON解析器

相关文章

高效掌握多步提示工程：进阶AI任务处理的系统方法论

浏览器资源嗅探终极指南：如何轻松下载网页视频与音频

OPEN实战：基于深度强化学习的多无人机追逃在线规划，如何跨越仿真到现实的鸿沟？

从Depth Anything到Video版本：揭秘字节跳动如何用时空注意力突破视频深度估计瓶颈

终极指南：如何使用ChampR构建高性能英雄联盟游戏助手

GLM-4.1V-9B-Base效果展示：中文手绘草图→功能描述→技术实现建议生成

分享文章

更多文章

【深度学习新浪潮】国产基础模型研发进展全景：从跟跑到领跑的历史性跨越

体验优化重构鼠标滚动：Mos让macOS外接鼠标如触控板般丝滑的解决方案

如何高效使用Unity游戏去马赛克工具：完整实用指南

上班问题记录～

避坑指南：华为交换机DHCP中继配置的5个常见错误（附WireShark抓包分析）

m4s-converter：3分钟搞定B站缓存视频转换的终极免费方案

微信数据安全合规解析：从技术实现到法律边界

深度学习框架源码剖析：PyTorch核心机制深度解读

Blue-Topaz Obsidian主题：5分钟打造优雅蓝色笔记环境的终极指南

某机构举办牛津帝国理工机器学习研讨会

Intv_AI_MK11 管理 Linux 服务器：通过自然语言执行运维命令

【AI】图像识别类任务汇总