Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 2.26 KB

2401.07598.md

File metadata and controls

20 lines (15 loc) · 2.26 KB

背景

  • 背景
    论文研究了大型语言模型(LLMs)经过参数高效微调(PEFT)后在多语言任务上的性能。之前的研究显示,LLMs在非英语语言上的性能与英语相比存在较大差距,尤其是与一些较小的开源模型相比。通过对模型进行微调,可以有效地缩小这种差距,并使语言模型更加公平。

  • 已有的工作 已有研究多集中在LLMs在英语任务上的训练、微调和评估。尽管LoRA等PEFT技术已经被证明能够加强开源LLMs的多语言能力,但对于不同的PEFT选择、配置和设置在多语言任务上的影响尚未有详尽的分析。

核心贡献

  • 提出了一个xxx
    • 挑战1:如何提高在多语言任务上的表现而不损害英语性能? 对LLMs的多语言性能进行评估时,研究人员使用各种不同的LoRA秩和量化值进行微调,并分析这些配置对英语和其他低资源语言性能的影响。通过对比微调前后的模型,研究人员发现在一些情况下,高秩和高量化值能够提升低资源语言的性能,但这有时会牺牲英语的性能。

    • 挑战2:如何量化微调后模型性能的增减? 研究人员通过在五个下游任务上涵盖了二十三种语言的多样化数据集进行实验评估。通过分析模型在不同任务和语言上的表现,研究人员确定了参数高效微调对各种语言的具体影响,并为未来在多语言设置中进行参数高效微调的研究提供了方向。

实现与部署

使用了LLAMA-7B和MISTRAL-7B模型在MULTIALPACA数据集上进行微调,并采用了LoRA不同的秩和量化参数进行实验。实验结果表明,在某些情况下,微调后的模型能够在多语言任务上取得较好的性能,特别是在较低资源的语言上。但同时也注意到,英语的性能可能会受到影响。在评估时,研究者使用了lm-eval-harness框架和Alpaca Eval基准测试进行了多语言的能力评估。

总结

这篇论文研究了大型语言模型在多语言任务上通过参数高效微调后的性能,特别是在低资源语言和英语任务上。研究展示了PEFT的潜力,同时指出了未来工作的一些可能方向。