Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 2.58 KB

2312.08926.md

File metadata and controls

20 lines (15 loc) · 2.58 KB

背景

  • 背景
    文章中描述了大型语言模型(LLMs)在解决需要广泛能力,包括解析声明、关联领域知识、执行复合逻辑推理以及整合中间推理等多个方面的复杂数学问题时面临的挑战。这些挑战同时出现会使LLMs感到困难并导致生成过程中的混乱。

  • 已有的工作 现有的研究尝试将LLMs扩展成基于代理的系统,以模仿社会互动行为,例如通过任务分解、协作、竞争和与环境互动,还有将推理过程分解为简单步骤来利用LLMs的潜力。这些方案包括CoT、Least-to-Most、ToT等。但目前为止尚未有系统性的分解和细致建模复杂数学解题过程的探索。

核心贡献

  • 提出了一个Planner-Reasoner-Executor-Reflector (PRER)框架
    • 挑战1:复杂的数学推理 本文提出了一个数学代理(MathAgent)框架,称为PRER,以模拟逻辑函数。PRER灵感来自于Belief-Desire-Intention (BDI)。该框架有四个关键模块:规划者(Planner)、推理者(Reasoner)、执行者(Executor)和反射者(Reflector),每个模块都由LLM核心模拟。这种框架模仿了人类解决复杂问题的过程,能够通过多个步骤逐渐解决复杂的数学推理任务。

    • 挑战2:不同的数学代理适配 文章实现了两种MathAgent,分别适用于LLMs(MathAgent-M)、人类方式解题(MathAgent-H)。MathAgent-M 与 LLMs 适配,而 MathAgent-H 与人类解题方式一致。这两者在不同的粒度和方向定义了逻辑形式和固有关系,通过改善动作池以及与 LLM 核心联合运作,提高了解决数学题目的能力。

实现与部署

在MiniF2F和MATH数据集上的实验分别展示了MathAgents项目的有效性,该项目比GPT-4提高了显著的性能,包括MATH数据集上平均9.26%的提升,以及miniF2F数据集上12.3%的提升。MathAgent-H比MathAgent-M的性能更好,特别在Easy路上,即更趋向于人类解题方式的代理能够更好地在所有主题上表现出超越LLMs的解题能力。而MathAgent-M在代数和PreAlgbra的课题上有所下降,推测其原因可能是解题过程的分解和建模放大了LLMs在计算上的固有弱点。

总结

论文建议通过MathAgent框架,即Planner-Reasoner-Executor-Reflector (PRER),提升LLMs解决复杂数学问题的能力。通过将问题分解为多个阶段并模拟人类解题过程,MathAgent能显著提高对挑战性数学数据集的解决能力,尤其是在估算和综合能力要求较高的领域。