-
背景
文章介绍了大型语言模型(LLMs)中的一项重要能力——上下文学习(ICL),它允许模型通过观察示例来完成多样化的任务。尽管这种能力很有前景,但LLMs如何从提供的上下文中学习的底层机制仍然未被充分研究。 -
已有的工作 已有工作没有深入探索LLMs在上下文学习的工作机制,因此在理解LLMs的具体学习流程方面存在不足。
- 提出了一个基于信息流视角研究ICL工作机制的新视角
-
挑战1:上下文学习工作机制 通过信息流视角的分析,发现在示例中的标签词起到锚定作用:在浅层计算层,语义信息聚合到标签词的表示中;在深层计算层,这些聚合的信息则作为参考以生成LLMs的最终预测。进一步提出基于标签词作为锚定的假设,验证了这一假设,并得到了验证结果。
-
挑战2:上下文学习的性能提高与错误分析 基于标签词作为信息流中的锚定点的发现,提出了锚定点重加权方法以提高ICL性能,演示压缩技术以加速推理,以及用于诊断GPT-2 XL中的ICL错误的分析框架。这些应用证明了所揭示的工作机制,并为未来研究铺平了道路。
-
选择GPT2-XL模型作为研究的主要对象,并使用了多个数据集来评估提出的假设。通过控制注意力机制以制造信息流的阻断,研究了标签词是否在浅层收集信息,在深层提取信息以形成最终预测,并采用标签忠诚度和词忠诚度等指标来评估模型预测的一致性。实验结果显示,当在浅层隔离标签词时,模型行为受到显著影响,验证了标签词作为信息聚合的重要性。最终,研究表明,标签词在上下文学习中的确起到锚定作用,这一发现有助于提高模型性能。
本论文通过信息流视角研究了大型语言模型进行上下文学习(ICL)的内部机制,发现了标签词在信息流中作为锚点的现象,提出了新假设,并通过实验验证了其有效性。此外,使用所得洞见提出了提高ICL性能的方法,为未来相关研究提供了理论基础和实践指导。