-
背景
论文提出了大型语言模型(LLMs)在语言理解、生成和推理方面的卓越能力,但其参数的大幅增长限制了它们在资源受限设备上的部署。 -
已有的工作 小型模型经常与大型模型一起预训练,虽然能一定程度上解决资源限制问题,但培训多个版本的模型耗时耗力。相比之下,模型压缩提供了一种更有效的替代方案,显著加快了推理过程,而先进的压缩技术甚至能在保持一定性能水平的情况下实现高压缩率。
- 提出了一项全面评估
-
挑战1:信任维度差异 存在的挑战是,压缩或更小的模型在不同的信任维度上表现不一致。论文通过对三个先进的LLMs使用五种压缩技术,对其在八个信任维度进行评估,揭示了压缩技术和信任维度之间的复杂互动。
-
挑战2:综合评估缺失 当前评估通常只关注有限的方面(例如,仅限于良性效用,或额外一两个信任维度),忽视了压缩模型在更广泛的信任维度上的表现。论文填补了这一空白,提供了一个更全面的理解。
-
论文通过对大型语言模型(LLMs)进行了首次信任维度的全面评估,这些维度包括刻板印象、毒性、隐私、公平性、伦理和鲁棒性。通过评估五种压缩方法压缩后的LLMs,发现量化比剪枝更有效,且在一定的量化位数范围内能够意外提高某些信任维度的表现。相反,极端量化到非常低的位数水平(3比特)会显著降低信任度。
本文首次对经过压缩的LLMs在多个信任维度上进行了全面评估,并提供了压缩时同时考虑效率和信任度的实用建议。