llm-paper-daily/summary/2023-12/2312.14828.md at main · xianshang33/llm-paper-daily · GitHub

背景

背景
论文介绍了传统的文本到动作生成方法通常基于有限的文本-动作配对数据进行训练，这使得它们难以泛化到开放世界场景。现有的一些工作尝试使用CLIP模型来对齐动作空间和文本空间，以期从自然语言动作描述中生成动作。尽管如此，这些方法仍受限于生成有限且不现实的原地动作。
已有的工作 现有的方法依赖于有限的文本-动作配对数据集，并且不能从CLIP的文本空间有效地连接自然语言和动作，导致它们仍然受限于从有限的文本提示中生成动作。除此之外，这些方法由于缺少时间先验而无法生成具有正确时间顺序的动作，只能产生不现实的原地动作。

核心贡献

提出了一个名为PRO-Motion的分而治之框架
- 挑战1：桥接自然语言和姿态描述的差距 通过运动规划器将复杂的自然语言动作描述翻译成一系列描绘主要姿势的脚本，使用LLM中的运动常识来强化在上下文演示中的效果。这种方法有效地解决了超出分布问题。
- 挑战2：实现脚本到姿态的生成 通过仅使用相对较小的标记数据集，训练生成模型来实现脚本到姿态的生成，并提出了能够理解结构化姿态描述和身体部位之间联系的基于扩散的姿态扩散模型。同时，设计了一个基于姿态规划的模块来选择关键姿势，考虑到姿势之间的连贯性和文本与姿势之间的语义一致性。

实现与部署

为了验证PRO-Motion方法的有效性，研究者们在各种数据集上进行了实验。定量和定性的结果表明，与最先进的方法相比，PRO-Motion在开放世界文本到动作生成方面显示出优越性，并能从复杂的提示语中生成多样化和真实感强的动作，例如“用一只脚跳跃”和“体验深刻的快乐感”。

总结

研究者们提出了一个名为PRO-Motion的新框架，以克服传统文本到动作生成方法的局限性，并成功在开放世界场景中生成更多样和真实的动作。