-
背景
文章汇总了当前指令调整领域中的快速发展,从更好的基础模型到新的微调技术,并在此基础上开发出了一系列改进的TÜLU模型,用于促进对预训练语言模型(LMs)在下游任务和用户偏好上的适配理解与最佳实践。 -
已有的工作 已有工作中的语言模型适配方法主要面临的问题是如何结合各种最新的模型、数据集和训练方法提供跨不同参数规模的强大模型,并在新模型中加入新的数据混合物,以提升在各种推理和知识探索任务上的表现。同时研究如何通过新的参数有效调整和基于人类反馈的强化学习(RLHF)方法来改进模型的性能。
- 提出了一个xxx
-
挑战1:数据混合物的品质改善 最新开发的数据混合物在下游性能上有显著提升,新混合物平均超过旧混合物8%的表现。
-
挑战2:DPO训练的规模扩展 直接偏好优化(DPO)训练能够扩展到70亿参数模型,并显著改进开放式生成指标,且不会降低模型能力,使AlpacaEval的性能平均提升了13%。并且最大的DPO训练模型在开放权重模型中实现了与最先进的表现相当的成果。
-
挑战3:QLoRA训练方法与全微调的差距 在长文本生成任务上,量化低秩适应(QLoRA)训练并没有与全微调匹配,虽然这个差距随着模型大小的增加而缩小。
-
TÜLU 2项目在不断提升基础模型和调整数据混合物上展示了突出的成果。具体来说,研究者们使用了新的LLAMA-2模型替代以前的LLAMA-1模型,并引入了一个新的数据混合物TÜLU-V2-mix,这带来了在各种推理和知识探索任务上更强的表现。进一步的,他们对TÜLU-V2-mix的LLAMA-2 70B模型应用了DPO算法,成功地展示了在70亿参数规模应用DPO的第一个稳定证明。此外,通过比较新的参数有效调整和RLHF方法的表现,以及探索使用QLoRA训练的效果,研究者们为语言模型微调的最佳实践提供了重要的见解和证据。
在评估的结果上,TÜLU 2套件在多个视角表现出了最先进的性能,并与GPT-3.5-turbo-0301在若干基准测试上的表现不相上下。他们公开了所有的模型、数据和代码,以支持未来在语言模型适配领域的开放研究。
TÜLU 2通过采用新的基础模型和调整策略,在多个性能指标上实现了突破,对进一步理解和改进预训练语言模型的适配具有重要意义。通过引入新的数据混合物和先进的训练方法(如DPO),TÜLU 2提高了模型在各种推理和知识探测任务上的性能,并在开放式生成指标上取得了显著的提升。此外,研究者们通过公开相关模型、数据和代码,推动了语言模型适配方法的开放研究和发展。