llm-paper-daily/summary/2023-12/2312.017.md at a35961641b10d7240f05dda4aa6c5711f5cea11f · xianshang33/llm-paper-daily · GitHub

背景

背景
论文指出，在大型语言模型（LLMs）的训练过程中，数据的管理扮演着基础性的角色。为了强化模型性能并提高训练效率，在预训练和监督式微调阶段，构建一个合适的训练数据集至关重要。然而，尽管数据管理非常重要，研究社区对于管理策略选择的合理性、其后果效应、评估策略及改进策略的方法学尚未形成系统性分析，因此对数据管理的探索在研究社区中越来越受到重视。
已有的工作 当前的工作没有提供一个系统的分析，对数据管理策略选择的理由、其产生的效果以及评估策略和持续改进策略的方法。此外，在构建预训练数据时，很多著名的LLMs没有透露或仅记录了所选择的过程，但其背后的原因不明确。在监督式微调阶段，LLMs的性能和指令追随能力主要由精心设计的指令数据集激发，而实践者在选择适合的数据管理策略时仍感到困惑，这导致了在LLMs微调实践中选择正确的数据管理策略的难题。

核心贡献

提出了一个综合性概述
- 挑战1：数据管理在LLMs训练中的重要性 论文提供了目前数据管理研究的综合性概述，涵盖了LLMs预训练和监督式微调阶段的多个关键方面，如数据量、数据质量及域/任务组成，同时也提出当前存在的挑战和未来发展的有希望的方向。
- 挑战2：系统性分析的缺乏 论文针对管理策略选择的合理性、其后果效应以及评估和改进策略的方法论提供了缺失的系统性分析。通过深入分析这些方面，论文为构建强大的LLMs通过有效的数据管理实践提供了指导资源。

实现与部署

本文没有提供具体的实验结果和评估数据，因此不能给出与相关工作的对比结果。

总结

这篇综述研究了在LLMs的预训练和监督式微调阶段，数据管理的研究现状以及数据管理策略的设计。