llm-paper-daily/summary/2024-01/2401.13598.md at a35961641b10d7240f05dda4aa6c5711f5cea11f · xianshang33/llm-paper-daily · GitHub

背景

背景
论文介绍了文档级关系三元组抽取（Document-level Relation Triplet Extraction, DocRTE）是信息系统中的一项基础任务，旨在从文档中同时提取具有语义关联的实体。现有方法严重依赖大量完全标注的数据，但是收集和标注新出现的关系类型的数据既耗时又费力。
已有的工作 现有工作无法解决的问题是它们主要集中在句子层面的关系提取，假设实体和关系都紧靠在单个句子内，获得的数据也需要大量人工标注。但在实际应用中，许多有价值的关系事实分布在文档的多个句子中，这些现有方法无法提取文档级的关系三元组，尤其是当涉及未见过的关系类型时。

核心贡献

提出了一个Zero-shot Document-level Relation Triplet Extraction (ZeroDocRTE) 框架
- 挑战1：自动标注文档和新关系的生成 响应这一挑战，提出了一个通过从大型语言模型（LLM）中检索和去噪知识产生标记数据的框架GenRDK。特别地，提出了一个检索链提示，引导ChatGPT逐步生成标记的长文本数据。
- 挑战2：合成数据中的噪声问题 为了提高合成数据的质量，论文提出了一种基于跨文档知识一致性的去噪策略。首先，使用已知关系数据训练一个预去噪DocRTE模型来获得合成数据的伪标签。接着，根据伪标签和合成数据的原始标签构建跨文档知识图，并通过计算一致性得分来评估关系事实的可靠性，最后剪除不可靠的关系事实并重新标注合成数据。

实现与部署

通过利用去噪后的合成数据，论文进一步对LLaMA2-13B-Chat进行了微调，以提取文档级关系三元组。在两个公开数据集上对零样本文档级关系和三元组抽取进行了实验。实验结果表明，GenRDK框架优于强基线。

总结

论文提出了一个新的Zero-shot Document-level Relation Triplet Extraction (ZeroDocRTE)框架，该框架通过从LLMs中检索和去噪知识生成带标签的数据，并通过一系列新方法显著提高了文档级关系三元组抽取的性能。