Upstage AI South Korea Alignment and Hallucination
-
背景
文章介绍了随着大型语言模型(LLM)发展,使它们与人类偏好相一致变得越来越重要。最近流行起来的直接优先级优化(DPO)被用于微调LLM以实现这一目标,该机制通过对偏好数据集的使用提高了模型的对齐性。 -
已有的工作为什么解决不了 已有的DPO实现通常利用更大、性能更好的模型或已对齐的模型来作为参考模型。但这种实践由于技术限制和安全考虑(如模型可能尚不存在或容易受到特定领域的有害性和公平标准的影响),