TouchAnything发布!这次egocentric隐藏的触觉数据和模型都开源了,300项任务......

张开发
2026/4/8 16:36:46 15 分钟阅读

分享文章

TouchAnything发布!这次egocentric隐藏的触觉数据和模型都开源了,300项任务......
现在机器人学会“看”和“听”下一步是让它拥有“触觉”。但是触觉数据的获取并不容易…随着Ego4D等大规模第一人称数据集的提出基于第一人称ego-centric视频数据的具身学习受到了广泛关注。相比传统的真机遥操作数据集ego-centric数据在采集成本、视角覆盖以及交互自然性等方面具有显著优势能够更加真实地反映人类与环境的交互过程因而逐渐成为该领域的重要发展方向。然而现有的ego-centric数据集普遍缺乏人类与环境交互中至关重要的一种模态信息——触觉模态。这一关键模态的缺失使得现有模型难以建模机器人与物理世界之间的接触与力学交互。即便是在抓取、搬运等基础操作任务中缺乏触觉信息也会导致系统难以判断接触是否稳定或操作是否成功从而限制了模型在真实场景中的应用能力。为了解决上述问题哈尔滨工业大学深圳杨朔教授团队提出了业内首个基于第一人称视角的多模态触觉数据集EgoTouch。该数据集同步采集了第一人称视觉信息、双手腕视角视频、双手全掌高分辨率触觉信号以及双手多关节三维位姿数据实现了视觉与触觉的紧密对齐。在此基础上团队进一步研发了首个基于第一人称视频的双手触觉估计模型TouchAnything为从视觉推理触觉信息提供了新的技术路径。我们也将其收录到具身智能之心开源知识库内欢迎学习EgoTouch数据集概览EgoTouch数据集具有以下关键特性多视角结合双手全掌触觉EgoTouch是首个将第一人称视角与双手腕部视角的多视角视频与双手全掌真实触觉压力数据进行同步采集的数据集。第一人称相机提供全局操作语境而腕部相机补充了常被遮挡的手物接触细节。密集且连续的全掌压力EgoTouch提供了由可穿戴触觉采集手套提供的精确压力分布数据。极丰富场景的双手操作EgoTouch数据集提供了超过300项手部精细操作任务涵盖抓取按压工具使用双手协调等同时包括室内室外商业等丰富的环境场景。全模态数据且时间同步所有模态均进行了逐帧时间对齐包括三视角视频双掌压力图双手手部精确位姿42个关节。1. 与现有数据集相比EgoTouch提供了最全面的模态信息EgoTouch数据集包含室内室外等丰富环境信息包含双掌的全掌精确压力触觉信息操作物品类型超1000种总数据超过两百万帧。2. EgoTouch有着极其丰富的任务和场景分布总体任务被分为居家工坊办公零售户外等五个场景类别每个类别都包含丰富的任务类型。3. 提供了一种可复现的标准化具身灵巧操作全模态数据采集流程下图展示了杨朔团队设计的标准数采方案包括三个可穿戴式摄像头一双Rokoko手部关节动捕手套三个HTC_Vive定位追踪器和一双压力触觉手套。模型架构在EgoTouch数据集的基础上哈工深杨朔团队实现了一种多视角触觉预测模型TouchAnything建立了该任务的基准方法。该模型使用DINOv2作为视觉骨干设计了可学习的视角嵌入和跨视角的交叉注意力机制。即使在缺失视角如只有ego视角时也可以提供相对准确的触觉预测。实验结果展示下列视频与图片展示了TouchAnything模型的具体推理结果可以看到模型能够准确预测出触觉信息在手掌中的分布情况多视角拔插充电器双手抛接网球单手鼠标操作视频详情多视角输入可以提升触觉预测准确性实验结果表明多视角输入能够提升触觉预测性能。相比仅使用第一人称视角ego-centric融合左右手腕视角的多视角输入在已见与未见物体设置下均取得一致的性能提升其中三视角联合输入EgowLwR在Temporal_Accuracy、Contact_IoU、Volumetric_IoU和MAE等指标上表现最佳。这一提升主要源于不同视角的互补性第一人称视角提供整体交互语境而手腕视角能够补充被自遮挡的接触细节尤其在抓取和施力阶段有助于更准确地恢复触觉分布。数据规模提升显著增强触觉预测性能实验结果表明模型性能随训练数据规模呈现出稳定的扩展趋势scaling_behavior。随着数据比例从25%提升至100%Contact_IoU与Volumetric_IoU持续提升而MAE逐步降低且在未见物体上的提升同样显著。这说明所提出方法能够有效从大规模数据中学习鲁棒的视觉-触觉映射关系并具备较强的跨对象泛化能力。展望触觉模态可能是具身智能领域当前最需要的一块拼图。在多模态大模型飞速发展的当下具身机器人缺乏的是和物理世界精细交互的触觉信息信息。EgoTouch数据集为当前具身灵巧操作领域提供了稀缺的触觉信息。同时TouchAnything又为现有第一人称视角数据集提供了全新的触觉预测方法进一步提升了对于第一人称视角信息的利用效率。研究团队认为灵巧操作或许是具身智能急需攻克的下一个技术难关而触觉模态将会发挥主导作用为高难度的精细操作提供最直接的反馈。另一方面在World_Action_Model越发引人关注的当下触觉模态也可以为世界模型提供关键的力学信息共同构建高置信的状态预测和可靠的动作生成。论文标题TouchAnything: A Dataset and Framework for Bimanual Tactile Estimation from Egocentric Video作者介绍Jianyi Zhou, Ziteng Gao, Feiyang Hong, Zirui Liu, Guannan Zhang, Weisheng Dai, Ruichen Zhen, Haotian Wu, Yinian Mao, Xushi Wang, Yuxiang Jiang, Shuo Yang通讯作者shuoyanghit.edu.cn实验室名M-PAI Lab, HITSZ项目地址https://jianyi2004.github.io/TouchAnything-Website/

更多文章