Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 2.47 KB

2406.0373.md

File metadata and controls

20 lines (15 loc) · 2.47 KB

背景

  • 背景
    论文讨论了大型语言模型(LLMs)如何通过In-context learning (ICL) 技术学习处理新任务。ICL技术通过使用一系列训练实例作为提示来实现这一点。然而,现有的ICL实例选择方法往往需要较长时间,并且经济成本昂贵,这限制了这些方法的实际应用性。

  • 已有的工作 以往的研究尝试通过选择一小部分未标记的实例进行标注来降低标注成本。这些实例的选择目标是多样性和代表性。尽管这些方法比随机选择更优,不过它们在计算效率方面存在明显短板。

核心贡献

  • 提出了一个 Fast Graph-based Annotation Selection(FastGAS)方法
    • 挑战1:如何提高实例选择的多样性与代表性 FastGAS通过图划分算法将数据相似图分割成不同段落,每个段落被视为一组实例,以保证选择的实例的多样性。为每个段落选择具有最大节点度数的实例,确保了所选择实例的代表性。

    • 挑战2:竭尽所能地减少实例选择过程所需的时间 FastGAS运用一种多级图二分算法加速图分割过程,然后用一个简单而有效的贪心算法选择每个段落里的实例。与在整个图上迭代选择的基线方法相比,FastGAS的算法在各个组件上运用贪心算法可以大幅降低计算时间。

实现与部署

FastGAS的有效性在多个不同任务类别的数据集上进行了评估,其选择的注释子集的性能表现优于现有基线。在实验中,比较了FastGAS和其他选择性注释方法,例如Vote-k和IDEAL,以及其他广泛认可的方法,如Top-degree、PageRank等。实验结果表明,在大多数情况下(13/14),FastGAS的表现都优于这两个现有基线。特别是在注释预算为18的情况下,所有被注释的例子都能在语言模型的上下文限制内适应,无需进行提示检索,评估结果直接反映了所选实例的质量。当注释预算为18时,FastGAS在大多数数据集上的性能都优于基线,这表明FastGAS能够选择更高质量的数据。此外,FastGAS大大减少了与已有方法相比的时间成本。

总结

论文提出的FastGAS方法在选择ICL实例时,不仅能提高多样性和代表性,同时还显著减少了所需的时间和计算资源。实验结果验证了其在多个数据集上的效能和效率,证明了其作为一种有效的实例选择方法的潜力。