llm-paper-daily/summary/2023-12/2312.1708.md at main · xianshang33/llm-paper-daily · GitHub

背景

背景
文章介绍了当前的大型语言模型 (LLMs) 在处理数学问题求解任务时达到了很高的准确性，但这些基准测试并不能有效地评估模型的认知能力，因为它们通常忽略了推理过程，专注于最终结果。
已有的工作 以往的工作主要关注最终结果，而不是推理过程，如GSM8K等基准数据集。尽管LLMs在这些基准测试上的表现接近或超过了人类，但它们在处理新的挑战性题目时表现不佳。这揭示了数据污染和对基准测试过度拟合的问题，也提出了对这些基准测试有效性的质疑。

核心贡献

提出了一个新的评估范式，即DiagGSM8K
- 挑战1：推理过程的评估 尽管LLMs可以在数学问题求解任务中生成准确的答案，但它们缺乏对解题过程的深入理解。文章提出的新评估范式通过挑战LLMs对不同推理进行推理来补充现有评估基准，并提供一种更全面评估模型的认知和推理能力的方法。
- 挑战2：培养基本认知能力 现有的训练范式通常通过归纳学习教授语言模型输出有限的解决方案路径，而没有培养其对基本规则和原则的理解。新范式要求LLMs表现出更深层次的认知理解能力，这揭示了对训练和评估方法需要一种更反思性的方法。

实现与部署

通过DiagGSM8K评估发现，最先进的LLMs只能在这个更微妙的评估中实现个位数的准确性，而与GSM8K相比GPT-4与GPT3-5之间的性能差异高达十倍。这表明新评估范式不仅关注推理过程而不是纯计算结果，而且还揭示了当前评估范式和训练方法中的根本不足。

总结

这篇论文提出了一个挑战LLMs进行元推理的新评估范式，并开发了配套的公开基准DiagGSM8K，这为评估LLMs的认知能力增加了一个新维度。