Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 2.84 KB

2403.13198.md

File metadata and controls

20 lines (15 loc) · 2.84 KB

背景

  • 背景
    论文指出大型语言模型(LLMs)表现出许多智能机器人所需的理想特征。然而,LLMs也众所周知会产生幻觉式的预测,即产生未植根于现实中的内容,这在消费类机器人领域尤为严重。机器人可能过于自信地执行与用户目标相反的计划,从而更经常依赖人类协助,或者阻止机器人在所有情况下寻求帮助。

  • 已有的工作 现有的工作通常没有在不确定或模糊情况下向用户求助,或者是通过密集的手工编程来进行,往往过度依赖寻求助手。尽管存在一些尝试如KnowNo项目,它们主要是为不确定性对齐任务提供评估手段和基本的基线,而不是提高信心度量,增加任务成功率,并最小化人工干预。

核心贡献

  • 提出了一个名为LAP的方法
    • 挑战1:如何减少LLMs在规划任务中的幻觉并获知何时寻求帮助 论文中指出,通过计算和利用场景可供性分数(即判断给定动作在提供的场景中是否可能)可以减少LLMs预测中的幻觉,并更好地将LLM的信心水平与成功概率对齐。

    • 挑战2:在不需要大量训练的情况下提高模型的任务成功率,并减少人工干预的频率 该方法特别提出并测试了三种不同的可供性分数,可以单独或共同使用以在不同的使用情况下提升性能。其中最成功的一种计算方法是让LLM评估给定动作在特定场景中是否可能和安全,并使用LLM的反应来计算分数。通过模拟和真实世界的实验,展示了LAP能显著提高成功率,并减少相对于先前技术所需的人类干预的数量。

实现与部署

论文在模拟环境和真实机器人硬件上评估了LAP方法,使用的是由KnowNo Simulation 和 Mobile Manipulator Datasets 提供的语言指导的操作任务套件。这些数据集包含了多种潜在的歧义,LAP方法需要处理这些歧义。实验结果表明,与基线相比,LAP能显著提高任务成功率并减少所需帮助的数量。例如,在真实世界的测试中,LAP将以前方法的人类帮助率降低了33%以上,同时保持了70%的成功率。此外,论文还比较了不同的从LLMs提取可供性值的方法,包括一种新颖的基于提示的方法,并显示出使用LLMs的最新和最强大的语言模型的LAP方法的性能超过了对这项任务的细微调整进行优化的LAP方法和以前的艺术。

总结

论文提出了一种新方法LAP,通过结合大型语言模型(LLMs)和场景可以供性来减少规划任务中的幻觉并实现不确定性对齐。通过在模拟和现实世界机器人操作任务的实验中表明,LAP可以显著提高成功率并减少对人类帮助的依赖,从而推动智能机器人领域的进步。