llm-paper-daily/summary/2024-02/2402.00858.md at a35961641b10d7240f05dda4aa6c5711f5cea11f · xianshang33/llm-paper-daily · GitHub

背景

背景
文章描述了大型语言模型（LLMs）在理解上下文特征方面的能力，重点表明了现有评估方法未能充分探究LLMs理解语篇（即超越单句的语言特征和结构）的能力，尤其是在不同任务中的语境理解。
已有的工作 当前的LLMs评估方法大多集中在通用基准和数据集上，但这些通常忽略了对语境理解任务的评估。此外，现有模型在进行评估时，大多只使用了受限的基准测试，而未涵盖语篇相关的数据集。例如，最新发布的像OPT、LLaMA和GPT-4这样的模型，尽管在不同的基准测试和数据集上展现出卓越性能，但并未全面评估其语言理解能力。

核心贡献

提出了一个上下文理解基准
- 挑战1：设计适合生成模型的任务和数据集及评估方案 为了评估LLMs对上下文的理解，作者收集了九个现有的数据集并设计了四个任务。每个任务都针对特定的语篇理解能力进行设计，包括指代消解和对话状态追踪等。这些任务为评估LLMs在上下文理解方面的能力提供了一个新的视角。
- 挑战2：评估量化模型在上下文理解任务中的表现 由于大型模型的计算和存储成本指数级上升，模型压缩成为了研究和实际应用中的一个重要话题。本文通过在上下文理解任务上对3比特的后训练量化模型进行评估，首次比较了密集型和量化模型在上下文理解任务中的表现，并发现量化对模型在不同任务上理解上下文的能力有不同程度的影响。

实现与部署

在实验中，作者使用了三个LLM模型家族进行评估。结果表明，在上下文理解基准中，预训练的密集型模型在理解更微妙的上下文特征方面存在挑战，显示出与其他注重语言其他方面的基准不一致的情况。量化模型展示了在上下文理解任务上的不同程度的性能下降。

总结

本文提出了一个上下文理解基准，用以评估大型语言模型（LLMs）的上下文理解能力。该基准涵盖了对文档和对话基础上下文理解的要素，通过创新的测试方法和实验分析展示了LLMs在上下文理解方面的能力和局限性。