【基于文本的运动生成text-to-motion】Hi-Motion: Hierarchical Intention Guided Conditional Motion Synthesis

张开发
2026/4/14 6:38:41 15 分钟阅读

分享文章

【基于文本的运动生成text-to-motion】Hi-Motion: Hierarchical Intention Guided Conditional Motion Synthesis
Hi-Motion论文解读从“直接生成动作”到“先生成运动意图”导语文本驱动的人体动作生成是近年来生成式人工智能与具身智能交叉方向中的一个重要研究问题。它要求模型根据一段自然语言描述生成一段与语义一致、时序连贯且结构自然的人体动作序列。表面上看这像是一个“文本到动作”的跨模态映射任务但真正落到建模层面时会同时涉及语义理解、时序生成、骨架结构建模以及长序列稳定性控制等多个难点。发表于CCF A类会议ACM MM 2025的论文Hi-Motion: Hierarchical Intention Guided Conditional Motion Synthesis尝试从一个新的角度来重构这一问题与其直接生成完整动作不如先生成动作背后的高层运动意图再由这些意图去引导完整骨架的合成。这一思路使得动作生成从“高维直接映射”转变为“层次化逐步生成”也让整个任务具备了更强的结构先验和更好的可解释性。一、论文试图解决什么问题现有的文本到动作生成方法往往直接根据文本特征或潜在语义表示生成完整的人体骨架序列。这类方法虽然在视觉效果和基准指标上已经取得了一定进展但仍然普遍面临两个核心问题。首先是从语义到完整动作序列的映射空间过大。同一段文本通常可以对应多种合理动作形式而完整骨架序列又具有较高自由度这使得模型很难在高维空间中稳定地学习到准确映射。其次是自回归生成中的误差累积问题。很多方法采用逐帧生成策略即当前帧依赖于前面已经生成的结果。一旦前面的某一帧出现偏差这种误差就会在后续过程中被不断放大最终导致动作不自然、关节不协调甚至语义漂移。Hi-Motion 的切入点正是在于重新思考“动作究竟应该如何生成”。论文作者认为人体动作本身具有明显的层次结构真正先决定动作整体趋势的往往是少数几个关键关节而其余关节更多是在这些关键趋势的引导下补充局部细节。基于这一认识论文提出先建模高层运动意图再完成低层动作细化的两阶段生成框架。二、论文的核心思想是什么Hi-Motion 最核心的思想可以概括为一句话动作生成不应该从一开始就直接预测完整骨架而应该先预测决定动作整体趋势的“高层意图”再在此基础上生成完整动作。围绕这一思想论文把人体骨架划分为五个区域躯干、左臂、右臂、左腿、右腿并从中选取五个关键关节作为pivot joints枢轴关节分别是根节点、左肩、右肩、左髋和右髋。在作者看来这些关节的时序轨迹能够较好地表达动作的高层意图。比如一个动作是“向前奔跑”“抬手投掷”还是“身体转向”这些变化首先会体现在躯干、肩部和髋部的整体运动趋势上而不一定首先体现在手腕、脚踝等末端关节上。因此Hi-Motion 并不直接从文本去生成所有关节而是先生成这些枢轴关节的运动轨迹再把这些轨迹作为“意图信号”去引导完整骨架序列的合成。通过这种方式原本困难的高维骨架生成被拆解成了“低维全局趋势建模”和“高维局部细节合成”两个更容易处理的子问题。三、这篇论文有哪些关键创新1. 提出层次化动作表示论文首先提出了一种层次化的动作表示方式。与只使用根节点轨迹来表达整体运动的方法不同Hi-Motion 同时建模多个枢轴关节的时序轨迹。这样做的原因在于很多动作之间的差异并不主要体现在人物整体的位移路径上而体现在肩、髋及四肢协同方式的差异上。这种多枢轴关节的表示方式相比单一根节点轨迹能够更完整地表达动作的高层语义结构也为后续的动作细化提供了更可靠的先验。2. 用 Bézier 曲线参数化枢轴关节轨迹第二个创新点是论文没有直接回归枢轴关节的整条轨迹而是采用高阶 Bézier 曲线对轨迹进行参数化建模。这一设计非常关键。因为真实人体关节轨迹虽然复杂但并非完全任意而是受到人体拓扑结构和局部协同运动的约束。与其让模型逐时刻预测所有轨迹点不如让它先预测少量控制点再由这些控制点生成整条平滑轨迹。这样做至少带来两个好处一是显著降低了建模难度二是让轨迹更平滑自然减少了直接回归中常见的抖动和突变问题。3. 将骨架生成建模为图节点变换第三个创新点体现在骨架生成方式上。论文指出人体骨架在不同时间帧中边连接关系本身是固定的真正变化的是各关节节点的状态。因此完整骨架的逐帧生成可以被看成一个“确定边连接条件下的图节点变换问题”。基于这一认识Hi-Motion 在生成每一帧骨架时不是简单地做向量回归而是显式利用骨架图结构将高层运动意图编码进图节点特征再通过图卷积与时序模块进行节点状态更新。这样不仅充分利用了人体骨架的结构先验也增强了长序列生成时的稳定性。四、方法是如何实现的从整体框架上看Hi-Motion 可以分为两个主要部分动作嵌入模块与层次化动作合成模块。1. 动作嵌入模块在动作嵌入阶段论文使用预训练的CLIP作为文本编码器用图卷积结构对动作进行编码并借助 VQ-VAE 学习离散潜在表示。这样做的目的是在文本和动作之间建立共享或对齐的潜在语义空间为后续生成提供稳定的语义条件。2. 高层运动意图生成在得到潜在表示之后模型首先进入“高层意图生成”阶段。这里Hi-Motion 利用 Bézier Decoder 预测五个枢轴关节轨迹对应的控制点然后根据 Bézier 曲线公式重建出这些枢轴关节的完整时序轨迹。也就是说模型先生成的并不是完整动作而是一组较低维、较平滑、能够表达整体趋势的运动意图。3. 意图引导的骨架合成在第二阶段模型再根据这些高层意图逐帧生成完整骨架。论文将传统自回归生成写为P(M|z)P(s_1|z)\prod_{t2}^{\ell}P(s_t|s_{t},z)其中z是潜在特征s_t表示第t帧骨架。这个公式也揭示了传统方法的问题每一帧都依赖前序结果误差容易不断累积。为缓解这一问题Hi-Motion 在生成当前帧时额外引入运动意图I希望满足P(s_i|z,I) P(s_i|z)其直观含义是如果模型在生成当前帧时不仅知道语义潜在特征还知道当前时刻应该朝什么方向运动那么该帧的生成难度就会降低结果也会更稳定。具体来说第k个枢轴关节在第i帧的运动意图定义为I_k[i]\overrightarrow{t_{i-1}^k t_i^k}即该关节在相邻两个时刻之间的位移向量。随后模型把上一帧骨架、潜在语义特征以及当前运动意图融合为图节点特征。对于属于枢轴关节集合的节点会显式注入意图信息对于其他节点则主要依赖上一帧状态和潜在特征。最后经图卷积、全连接层和 LSTM 处理后输出当前帧骨架。4. 训练目标论文的生成损失写为L_{gen}L_{Bezier}\omega L_{ske}其中L_{Bezier}用于监督枢轴关节 Bézier 控制点的预测L_{ske}用于约束骨架重建精度与时序平滑性。通过这种联合训练方式模型同时学习“高层意图如何表达”和“低层骨架如何在意图引导下生成”。五、这篇论文的价值体现在哪里从研究思路上看Hi-Motion 的价值并不只在于提出了一个性能更好的模型更重要的是它为文本驱动动作生成提供了一种更符合人体运动规律的建模方式。过去很多方法把动作生成理解为“从文本直接映射到完整骨架序列”而 Hi-Motion 则强调动作本身具有层次结构应先建模决定整体趋势的高层意图再生成局部细节。这样的分解让模型不必一开始就在高维动作空间里“盲目搜索”而是在结构先验的约束下逐步完成生成。从方法设计上看论文把三件事情自然地串联起来层次化表示、参数化轨迹建模以及图结构骨架生成。这三部分并不是孤立拼接而是共同服务于“先意图、后动作”的核心逻辑。从潜在应用上看这种“高层意图—低层执行”的思想也不只适用于文本到动作生成。它同样可能对机器人控制、动作预测、虚拟人驱动乃至更广义的具身智能任务产生启发。因为在这些任务中系统往往也需要先确定整体行为趋势再执行局部动作细节。六、仍有哪些值得思考的地方尽管 Hi-Motion 提供了一个很清晰、也很有启发性的框架但它也留下了若干值得继续思考的问题。首先目前的层次划分方式仍然是人工设定的。五个枢轴关节的选择符合人体解剖结构也有较强直觉合理性但未来是否能够由模型自动学习出更优的层次表示仍然是一个值得探索的方向。其次Bézier 曲线对于平滑轨迹的建模非常有效但面对某些高频、剧烈、突发性的动作变化时是否仍然足够灵活还需要更多验证。再次论文主要在文本到人体动作生成任务上进行了验证。未来如果将这一框架扩展到更复杂的控制条件、多人物交互动作或者与物理约束结合的动作生成场景其表现如何也值得进一步研究。七、总结总体来看Hi-Motion 是一篇思路非常清楚的工作。它没有单纯依赖更大的模型或更复杂的训练技巧去提升动作生成质量而是从任务结构本身出发重新组织了“文本—意图—动作”的生成链条。如果用一句话概括这篇论文的核心启发那就是在复杂动作生成中先建模运动意图再生成动作细节可能比直接生成完整动作更自然、更稳定也更具可解释性。这也是 Hi-Motion 最值得关注的地方。它提醒研究者生成模型的提升不一定只来自更强的拟合能力也可能来自对问题结构更合理的拆解与表达。参考论文Hi-Motion: Hierarchical Intention Guided Conditional Motion SynthesisACM Multimedia 2025DOI:10.1145/3746027.3755020

更多文章