llm-paper-daily/summary/2023-12/2312.08056.md at main · xianshang33/llm-paper-daily · GitHub

背景

背景
文章介绍了古代文物在文化保存和复原方面的重要性。随着近年来技术的发展，许多与古代文物相关的项目出现了，例如恢复受损文字图片、为古代艺术生成描述以及解读甲骨文。虽然这些工作为研究文物打开了新的途径，但在相关任务中仍有很多亟待探索的领域。其中之一是从文本描述中重建文物的视觉图像，因为许多物理文物常见受损或丢失，留下的只有文本记录。这项任务对历史研究和文化保存来说可能是非常宝贵的，因为它为历史学家提供了研究历史的新视角，并使人们能够与他们的文化遗产建立联系。
已有的工作
尽管在开放域文本到图像的合成中，扩散模型取得了显著的进展，但在考古研究的专业领域中，这些模型往往因为缺乏专业知识而难以生产出令人满意的结果。这是由于现有模型在生成过程中缺乏知识监督，导致生成图像时出现形状、模式和细节错误，无法匹配文本信息中的隐含知识和目标文物的历史背景。

核心贡献

提出了一个知识感知的古代文物图像合成方法
- 挑战1：文本提示的噪音和缺乏良好展示的知识信息 为了解决文本提示的问题，提出使用大型语言模型（LLMs）来加强文本提示。一方面，通过LLMs从给定的文本提示中提取核心和有意义的信息，并以更结构化的方式重新组织，以明确呈现当前的知识信息；另一方面，使用LLMs作为外部知识库来检索相关的考古知识信息，并将其增加到重新结构化的文本提示中。
- 挑战2：生成过程中缺乏文本和视觉知识监督 为了解决监督不足的问题，引入了额外的多模态监督。首先引入对比学习范式，使文本编码器能够使文物的文本表征更符合考古学知识。其次，应用更严格的视觉约束，使用边缘损失和感知损失，使最终的视觉输出与古代文物的视觉域知识保持一致。

实现与部署

我们采用预训练的中国稳定扩散模型作为基础模型，并通过引入LLMs辅助的提示构造和多源监督技术增强了文本到图像的生成框架。通过比较实验和用户研究，我们的方法在自动评估指标和人类评估中均明显优于现有文本到图像模型，大大提高了历史文物生成的质量。

总结

本文提出了一个结合LLMs增强提示和多源监督的知识感知古代文物图像合成方法，解决了现有文本到图像合成方法在考古领域应用时缺乏领域知识的问题，并在质量和历史知识对齐方面取得了显著进步。