Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 2.18 KB

2401.13598.md

File metadata and controls

20 lines (15 loc) · 2.18 KB

背景

  • 背景
    论文介绍了文档级关系三元组抽取(Document-level Relation Triplet Extraction, DocRTE)是信息系统中的一项基础任务,旨在从文档中同时提取具有语义关联的实体。现有方法严重依赖大量完全标注的数据,但是收集和标注新出现的关系类型的数据既耗时又费力。

  • 已有的工作 现有工作无法解决的问题是它们主要集中在句子层面的关系提取,假设实体和关系都紧靠在单个句子内,获得的数据也需要大量人工标注。但在实际应用中,许多有价值的关系事实分布在文档的多个句子中,这些现有方法无法提取文档级的关系三元组,尤其是当涉及未见过的关系类型时。

核心贡献

  • 提出了一个Zero-shot Document-level Relation Triplet Extraction (ZeroDocRTE) 框架
    • 挑战1:自动标注文档和新关系的生成 响应这一挑战,提出了一个通过从大型语言模型(LLM)中检索和去噪知识产生标记数据的框架GenRDK。特别地,提出了一个检索链提示,引导ChatGPT逐步生成标记的长文本数据。

    • 挑战2:合成数据中的噪声问题 为了提高合成数据的质量,论文提出了一种基于跨文档知识一致性的去噪策略。首先,使用已知关系数据训练一个预去噪DocRTE模型来获得合成数据的伪标签。接着,根据伪标签和合成数据的原始标签构建跨文档知识图,并通过计算一致性得分来评估关系事实的可靠性,最后剪除不可靠的关系事实并重新标注合成数据。

实现与部署

通过利用去噪后的合成数据,论文进一步对LLaMA2-13B-Chat进行了微调,以提取文档级关系三元组。在两个公开数据集上对零样本文档级关系和三元组抽取进行了实验。实验结果表明,GenRDK框架优于强基线。

总结

论文提出了一个新的Zero-shot Document-level Relation Triplet Extraction (ZeroDocRTE)框架,该框架通过从LLMs中检索和去噪知识生成带标签的数据,并通过一系列新方法显著提高了文档级关系三元组抽取的性能。