Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 2.44 KB

2311.18041.md

File metadata and controls

20 lines (15 loc) · 2.44 KB

背景

  • 背景
    文章介绍了大型语言模型(LLMs)在文摘方面具有强大的能力,但它们在会话概括方面的能力仍未得到充分探索。本项工作评估了约10亿参数的LLMs在会话摘要方面的表现,并展示了它们对各种指令的执行效果。

  • 已有的工作 在此之前,LLMs已经展示了包括摘要在内的令人印象深刻的多任务能力,且在没有先例的情况下表现出了优异的性能。然而,即使LLMs通过简单的自然语言短语(如提示)来解决任务,由于LLMs在处理提示时的脆弱性,它们生成的摘要质量和一致性受到指令的强烈影响,如果提示选择不当,会导致显著下降的ROUGE分数。已有的工作尽管进行了积极的探索,但仍存在在会话摘要上应用LLMs时固有的脆弱性问题,特别是在开源小型LLMs中这一问题更为显著。

核心贡献

  • 提出了一个在约11亿参数的LLMs上进行会话摘要评估的研究
    • 挑战1:如何处理LLMs处理提示时的脆弱性 本研究在技术委员会会议的数据集上对LLMs进行了进一步微调,并在聊天数据集上评估其性能,讨论了微调后的模型在不同领域上进行零样本摘要的能力。

    • 挑战2:在合理的计算预算内,选择合适的模型参数量以实现在边缘设备上的运行 论文选择了约11亿参数的模型,并对这些模型在成本和硬件限制、较低碳排放的模型开发方法的约束下进行了研究。研究了如何通过压缩模型和减少内存交互来优化使用这些模型在个人电脑和移动系统上有效运行的关键。

实现与部署

本文使用了MeetingBank数据集进行指令调优,并且在Samsum和Dialogsum数据集上进行了零样本评估。关于模型选择,作者指出大型模型和更多数据在推理时会增加计算需求。文章还讨论了如何在硬件推理方面进行优化,如通过压缩模型和减少内存交互来适应低功率设备上的模型运行。最终,对于推理效率凸显了在个人电脑上运行推理实例是如何消耗显著内存,并且提出了用于优化模型以适应这些限制的方法。

总结

文章以大型语言模型在会话摘要任务中的应用作为焦点,深入探讨了不同指令对模型执行效果的影响,并研究了在有限硬件下使用压缩模型的优化方法。