Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 2.04 KB

2312.017.md

File metadata and controls

20 lines (15 loc) · 2.04 KB

背景

  • 背景
    论文指出,在大型语言模型(LLMs)的训练过程中,数据的管理扮演着基础性的角色。为了强化模型性能并提高训练效率,在预训练和监督式微调阶段,构建一个合适的训练数据集至关重要。然而,尽管数据管理非常重要,研究社区对于管理策略选择的合理性、其后果效应、评估策略及改进策略的方法学尚未形成系统性分析,因此对数据管理的探索在研究社区中越来越受到重视。

  • 已有的工作 当前的工作没有提供一个系统的分析,对数据管理策略选择的理由、其产生的效果以及评估策略和持续改进策略的方法。此外,在构建预训练数据时,很多著名的LLMs没有透露或仅记录了所选择的过程,但其背后的原因不明确。在监督式微调阶段,LLMs的性能和指令追随能力主要由精心设计的指令数据集激发,而实践者在选择适合的数据管理策略时仍感到困惑,这导致了在LLMs微调实践中选择正确的数据管理策略的难题。

核心贡献

  • 提出了一个综合性概述
    • 挑战1:数据管理在LLMs训练中的重要性 论文提供了目前数据管理研究的综合性概述,涵盖了LLMs预训练和监督式微调阶段的多个关键方面,如数据量、数据质量及域/任务组成,同时也提出当前存在的挑战和未来发展的有希望的方向。

    • 挑战2:系统性分析的缺乏 论文针对管理策略选择的合理性、其后果效应以及评估和改进策略的方法论提供了缺失的系统性分析。通过深入分析这些方面,论文为构建强大的LLMs通过有效的数据管理实践提供了指导资源。

实现与部署

本文没有提供具体的实验结果和评估数据,因此不能给出与相关工作的对比结果。

总结

这篇综述研究了在LLMs的预训练和监督式微调阶段,数据管理的研究现状以及数据管理策略的设计。