Skip to content

Latest commit

 

History

History
19 lines (15 loc) · 3.13 KB

2401.10005.md

File metadata and controls

19 lines (15 loc) · 3.13 KB

背景

  • 背景
    文章介绍了当前人工智能领域内对理解和推理视觉内容的智能系统需求日益增长,这推动了大型多模态模型(Large Multi-Modal Models,简称 LMMs)的发展,这些模型需要具备不仅准确性强,还能进行显性推理的能力。

  • 已有的工作 已有的大模型通常使用大规模的数据集来学习图像和文本之间的对齐,然后通过小型的高质量数据集进行指令调整(instruction tuning)来增强各种任务的文本生成能力。然而,这些模型经常会产生幻觉(hallucination),即提供与给定输入不符的输出,例如在给定图像中提及不存在的对象。另一个严重的局限性是,当幻觉发生时,这些模型无法解释其输出背后的推理过程,这使得很难识别和纠正模型的错误。此外,模型无法自行更正错误,因为它们缺乏关于自己输出的推理能力,然而人类在不确定时通常会通过提问来获得新的知识和完善答案。因此,本研究旨在通过整合显性的推理过程和生成问题的能力来解决这些挑战。

核心贡献

  • 提出了一个使用CoR的LMM架构
    • 挑战1:幻觉与解释能力缺失 目前模型在生成与视觉内容相关的输出时会出现幻觉现象,它们无法解释它们的推理过程,尤其是在幻觉发生时。为了解决这一挑战,研究提出了一种整合显性推理过程和生成问题能力的方法。通过这种方式,模型在进行推理时能够明确地学习和输出推理过程,并在必要时通过提问获取知识,并在推理时生成问题,暂停以获得知识后继续推理过程,从而得出更准确和可靠的结论。
    • 挑战2:弱化的文本生成和对抗不确定性能力 由于LMM相对于LLM在文本生成能力上较弱,仅通过提示(prompting)来实现思考链(Chain-of-Thought)推理是具有挑战性的。为了应对这一挑战,研究创建了一个包括显性推理过程的新数据集,该数据集利用LLM生成,结合图像注释和少量手动创建的示例。这包括在模型不确定需要生成问题的情形,训练它在模糊推理情境中提问。然后在此数据集上训练一个新颖的LMM架构,具有改进的区域感知能力,并集成了预训练的图像编码器和文本解码器,使模型在接受训练后获得了生成显性推理步骤和询问问题的能力,从而提高了其推理的可靠性。

实现与部署

结果显示了朝着更加稳健、准确和可解释的LMM迈出了一大步,这些模型能够显性地推理并在面临模糊视觉输入时主动寻求信息。新的数据集和模型取得了显着的进展,为未来LMM的发展奠定了基础。

总结

这项研究通过创新地整合一个显性的推理过程和生成问题的能力到LMM中,以促进模型进行更可靠的推理。创建了一个新的数据集并利用它对模型进行培训,为今后LMM的进步设定了先例,并通过这种方式使模型在面临不确定性时能生成显性推理步骤和提问。