CN113051366A

CN113051366A - 专业领域论文的批量实体抽取方法及系统

Info

Publication number: CN113051366A
Application number: CN202110260658.6A
Authority: CN
Inventors: 张丽; 胡雨轩
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-06-29
Anticipated expiration: 2041-03-10
Also published as: CN113051366B

Abstract

本发明公开了一种专业领域论文的批量实体抽取方法及系统，方法包括：采用开源数据集对联合实体关系抽取模型进行预训练；针对模型输出的实体识别结果中的单个实体加入边界信息；以所要抽取实体的专业领域的文献数据集对模型进行迁移学习；构建专业领域的词典匹配规则，并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入训练集中；对训练集进行迭代扩充和反复训练，直至训练结果无明显正收益；将需要抽取实体的文本输入训练完成的模型，得到关系分类的实体信息。通过本发明的技术方案，有效解决了错差累积和关系重叠的问题，减少了人力成本及其所导致的高标注成本，且为跨领域实施带来更多的可能和便利。

Description

专业领域论文的批量实体抽取方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种专业领域论文的批量实体抽取方法以及一种专业领域论文的批量实体抽取系统。

背景技术

随着深度学习技术的发展，以及在自然语言处理领域的不断突破，基于深度学习的实体识别和关系抽取任务已经逐渐从由于具有标注成本高、误差率高、局限于特定领域等诸多缺点而导致实际应用价值低、落地成本高的窘境，发展到了可以在少样本、复杂关系、跨领域的应用上实现一定价值。

但是，目前的实体关系抽取任务方法仍主要存在两大问题：(1)割裂实体识别与关系抽取两个任务之间的联系。即关系抽取任务是基于实体识别任务的结果，且关系抽取任务结果对于实体识别任务没有起到修正作用。此问题会直接导致误差传播，即若前一任务的结果出现错误，后一任务的结果必然错误，从而导致模型效果变差，准确率降低。(2)无法形象刻画多实体之间的复杂关系。传统实体关系抽取任务采用BIO序列标注的方式对实体、关系进行预测。然而，在实际应用过程中，常常存在实体重叠、关系重叠等诸多特殊情况，需要设计比较复杂的联合标签才能完成对实体关系三元组的抽取。然而标签越复杂，其出现的次数通常就会越少，从而引发严重的样本不均衡问题，导致抽取效果变差。

同时在实际应用领域，尤其是较为小众的专业领域，受到数据集数量及质量的限制，大多仍采用人工制定模板、大量标注训练样本的方式进行实体关系抽取的任务，该方式误差率高、泛化能力弱、并且需要专家耗费大量人力成本。

发明内容

针对上述问题，本发明提供了一种专业领域论文的批量实体抽取方法及系统，通过将实体识别子任务和关系抽取子任务同时放到模型里进行训练，使两个子任务共享词嵌入层的权重，然后再综合两个子任务的损失函数进行反向传播以更新模型的各神经元权重。对于实体识别任务，在最后输出层选择出所有可能是实体片段的候选集，并将其实体边界作为补充信息传递到后续任务。对于关系抽取任务，则综合文本序列、实体片段及实体边界进行关系抽取预测。该方法可以有效解决错差累积和关系重叠的问题，减少构建复杂三元组标签带来的人力成本及其所导致的高标注成本，与诸多实体关系抽取模型相比有明显优势。同时，由于使用同一套标注规则，也为跨领域进行实体关系抽取带来更多的可能和便利。

为实现上述目的，本发明提供了一种专业领域论文的批量实体抽取方法，包括：采用较大规模开源数据集对联合实体关系抽取模型进行预训练；针对所述联合实体关系抽取模型输出的实体识别结果中的单个实体加入边界信息并作为输出信息传递；以所要抽取实体的专业领域的文献数据集对所述联合实体关系抽取模型进行迁移学习；构建所述专业领域的词典匹配规则，并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入所述联合实体关系抽取模型的训练集中；对所述联合实体关系抽取模型的训练集进行迭代扩充和反复训练，直至训练结果无明显正收益；将需要抽取实体的文本输入训练完成的所述联合实体关系抽取模型，得到关系分类的实体信息。

在上述技术方案中，优选地，专业领域论文的批量实体抽取方法还包括：在所述联合实体关系抽取模型进行关系抽取过程中，采用Teach-Forcing方式选择实体边界和实体对作为关系抽取过程的输入。

在上述技术方案中，优选地，专业领域论文的批量实体抽取方法还包括：引入主动学习机制，采用信息熵作为实体关系预测结果的不确定性的置信度，并将置信度超过预设置信阈值的预测结果输出。

在上述技术方案中，优选地，所述较大规模开源数据集采用与所要抽取实体的专业领域的应用场景相近似的数据集。

在上述技术方案中，优选地，所述以所要抽取实体的专业领域的文献数据集对所述联合实体关系抽取模型进行迁移学习具体包括：对所要抽取实体的专业领域的文献数据集进行人工标注实体及相应的实体间关系；将标注后的所述文献数据集进行数据清洗，以得到与预训练过程中所述开源数据集相同的标注格式和输入方式；将数据清洗后的所述文献数据集输入预训练完成后的所述联合实体关系抽取模型进行二次学习训练，同时更新模型参数。

在上述技术方案中，优选地，所述构建所述专业领域的词典匹配规则并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入所述联合实体关系抽取模型的训练集中的具体过程包括：基于常见实体类型和关系类型的关键词创建及扩充模板词典，并建立词典匹配规则；将训练数据输入所述词典匹配规则进行规则匹配；将所述训练数据输入迁移学习后的所述联合实体关系抽取模型进行预测；将所述联合实体关系抽取模型的预测结果与所述词典匹配规则的匹配结果基于编辑距离进行比较，若比较结果一致，则将当前训练数据扩充至所述联合实体关系抽取模型的训练集中。

在上述技术方案中，优选地，所述联合实体关系抽取模型在扩充训练集的反复训练，直至训练结果的损失函数达到预设阈值范围，所述联合实体关系抽取模型训练完成。

本发明还提出一种专业领域论文的批量实体抽取系统，应用如上述技术方案中任一项提出的专业领域论文的批量实体抽取方法，包括：预训练模块，用于采用较大规模开源数据集对联合实体关系抽取模型进行预训练；边界增加模块，用于针对所述联合实体关系抽取模型输出的实体识别结果中的单个实体加入边界信息并作为输出信息传递；迁移学习模块，用于以所要抽取实体的专业领域的文献数据集对所述联合实体关系抽取模型进行迁移学习；样本扩充模块，用于构建所述专业领域的词典匹配规则，并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入所述联合实体关系抽取模型的训练集中；迭代训练模块，用于对所述联合实体关系抽取模型的训练集进行迭代扩充和反复训练，直至训练结果无明显正收益；实体抽取模块，用于将需要抽取实体的文本输入训练完成的所述联合实体关系抽取模型，得到关系分类的实体信息。

在上述技术方案中，优选地，专业领域论文的批量实体抽取系统还包括：主动学习模块，用于引入主动学习机制，采用信息熵作为实体关系预测结果的不确定性的置信度，并将置信度超过预设置信阈值的预测结果输出。

在上述技术方案中，优选地，所述联合实体关系抽取模型在进行关系抽取过程中，采用Teach-Forcing方式选择实体边界和实体对作为关系抽取过程的输入。

与现有技术相比，本发明的有益效果为：通过将实体识别子任务和关系抽取子任务同时放到模型里进行训练，使两个子任务共享词嵌入层的权重，然后再综合两个子任务的损失函数进行反向传播以更新模型的各神经元权重。对于实体识别任务，在最后输出层选择出所有可能是实体片段的候选集，并将其实体边界作为补充信息传递到后续任务。对于关系抽取任务，则综合文本序列、实体片段及实体边界进行关系抽取预测。该方法可以有效解决错差累积和关系重叠的问题，减少构建复杂三元组标签带来的人力成本及其所导致的高标注成本，与诸多实体关系抽取模型相比有明显优势。同时，由于使用同一套标注规则，也为跨领域进行实体关系抽取带来更多的可能和便利。

附图说明

图1为本发明一种实施例公开的专业领域论文的批量实体抽取方法的流程示意图；

图2为本发明一种实施例公开的联合实体关系抽取模型的信息传递示意图；

图3为本发明一种实施例公开的联合实体关系抽取模型的训练和预测流程示意图；

图4为本发明一种实施例公开的专业领域论文的批量实体抽取系统的模块示意图。

图中，各组件与附图标记之间的对应关系为：

11.预训练模块，12.边界增加模块，13.迁移学习模块，14.样本扩充模块，15.迭代训练模块，16.实体抽取模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

如图1至图3所示，根据本发明提供的一种专业领域论文的批量实体抽取方法，包括：采用较大规模开源数据集对联合实体关系抽取模型进行预训练；针对联合实体关系抽取模型输出的实体识别结果中的单个实体加入边界信息并作为输出信息传递；以所要抽取实体的专业领域的文献数据集对联合实体关系抽取模型进行迁移学习；构建专业领域的词典匹配规则，并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入联合实体关系抽取模型的训练集中；对联合实体关系抽取模型的训练集进行迭代扩充和反复训练，直至训练结果无明显正收益；将需要抽取实体的文本输入训练完成的联合实体关系抽取模型，得到关系分类的实体信息。

在该实施例中，通过将实体识别子任务和关系抽取子任务同时放到模型里进行训练，使两个子任务共享词嵌入层的权重，然后再综合两个子任务的损失函数进行反向传播以更新模型的各神经元权重。对于实体识别任务，在最后输出层选择出所有可能是实体片段的候选集，并将其实体边界作为补充信息传递到后续任务。对于关系抽取任务，则综合文本序列、实体片段及实体边界进行关系抽取预测。该方法可以有效解决错差累积和关系重叠的问题，减少构建复杂三元组标签带来的人力成本及其所导致的高标注成本，与诸多实体关系抽取模型相比有明显优势。同时，由于使用同一套标注规则，也为跨领域进行实体关系抽取带来更多的可能和便利。

其中，优选地，较大规模开源数据集采用与所要抽取实体的专业领域的应用场景相近似的数据集。本发明采用计算机及材料科技文献领域的开源数据集SciERC作为预训练模型的样本，该数据集同样是从文献中抽取信息，与实际应用场景近似，但由于不同领域的文献其实体类型、关系类型及样本词均不相同，故需要进行迁移学习。

此外，为进行迁移学习任务，构建了所在领域的文献数据集，随后利用该数据集对预训练模型进行迁移学习，并针对该数据集进行少样本下的模型优化，在跨领域小样本数据集下，使用本发明提出的优化后的联合实体关系抽取模型后，实体关系抽取效果明显优于基于规则的抽取方式和先前模型，同时可以实现不同专业领域论文的批量实体关系抽取。具体地，本发明以化学领域为例，从化学领域顶级会议ACB中选择催化剂制备文献共100篇，人工定位到该文献中催化剂制备章节，标注实体、关系共15类，实体共3000余个，实体间关系共1000余对，作为对模型进行迁移学习的数据集。

在上述实施例中，优选地，以所要抽取实体的专业领域的文献数据集对联合实体关系抽取模型进行迁移学习具体包括：对所要抽取实体的专业领域的文献数据集进行人工标注实体及相应的实体间关系；将标注后的文献数据集进行数据清洗，以得到与预训练过程中开源数据集相同的标注格式和输入方式；将数据清洗后的文献数据集输入预训练完成后的联合实体关系抽取模型进行二次学习训练，同时更新模型参数。

具体地，对于实体关系抽取任务来说，其目的为预测不同实体片段对之间的关系类型，目前现有的方法只是重复适用不同跨度来预测它们之间的关系，而这些表示只捕捉到了每个实体周围的上下文关系，而无法捕捉特定片段对之间的依赖关系。对此，本发明除实体周围的上下文关系外，对于实体边界的确认对关系抽取任务有重要影响。因此，本发明将实体识别的结果针对单个实体加入边界信息输出，同时，考虑到大量的预测实体信息的传入会在训练过程中融入过多的噪声，从而降低总体F1值。

也由于上述原因，因此本发明在联合实体关系抽取模型进行关系抽取过程中，采用Teach-Forcing方式选择实体边界和实体对作为关系抽取过程的输入，即有30％概率使用正确的实体对来替代预测的实体对作为关系抽取的输入部分。这样既可以将实体中的边界信息传递给关系抽取任务，又可以保证没有造成在传递过程中产生过大的噪声影响。

在上述实施例中，优选地，构建专业领域的词典匹配规则并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入联合实体关系抽取模型的训练集中的具体过程包括：

基于常见实体类型和关系类型的关键词创建及扩充模板词典，并建立词典匹配规则，并根据新词发现算法，扩充模板词典；

将训练数据输入词典匹配规则进行规则匹配；

将训练数据输入迁移学习后的联合实体关系抽取模型进行预测；

将联合实体关系抽取模型的预测结果与词典匹配规则的匹配结果基于编辑距离进行比较，若比较结果一致，则将当前训练数据扩充至联合实体关系抽取模型的训练集中，对模型进行增量学习。

在上述实施例中，优选地，专业领域论文的批量实体抽取方法还包括：引入主动学习机制，采用信息熵作为实体关系预测结果的不确定性的置信度，并将置信度超过预设置信阈值的预测结果输出。

具体地，实体关系抽取本质为概率模型，其最终预测结果是为概率最大的实体类别，即：所有概率中的y最大值，

其中，P为条件概率，y_i为输入x条件下的预测结果，e为自然常数。然而，如共有3个类别，概率值分别为0.9，0.05，0.05；与概率值分别为0.4，0.3，0.3，预测结果虽同属于类别1，但其置信度显然不同。故引入主动学习机制，对其置信度进行评判，即：

其中，X为输入样本，argmax_x为输入x的情况下，概率最大的y_i的概率值。

在该发明中，采用了熵的概念来表示系统不确定性的衡量标准，熵越大表示系统的不确定性越大，熵越小表示系统的不确定性越小。

在上述实施例中，优选地，联合实体关系抽取模型在扩充训练集的反复训练，直至训练结果的损失函数达到预设阈值范围，联合实体关系抽取模型训练完成。

如图4所示，本发明还提出一种专业领域论文的批量实体抽取系统，应用如上述实施例中任一项提出的专业领域论文的批量实体抽取方法，包括：预训练模块11，用于采用较大规模开源数据集对联合实体关系抽取模型进行预训练；边界增加模块12，用于针对联合实体关系抽取模型输出的实体识别结果中的单个实体加入边界信息并作为输出信息传递；迁移学习模块13，用于以所要抽取实体的专业领域的文献数据集对联合实体关系抽取模型进行迁移学习；样本扩充模块14，用于构建专业领域的词典匹配规则，并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入联合实体关系抽取模型的训练集中；迭代训练模块15，用于对联合实体关系抽取模型的训练集进行迭代扩充和反复训练，直至训练结果无明显正收益；实体抽取模块16，用于将需要抽取实体的文本输入训练完成的联合实体关系抽取模型，得到关系分类的实体信息。

在上述实施例中，优选地，专业领域论文的批量实体抽取系统还包括：主动学习模块，用于引入主动学习机制，采用信息熵作为实体关系预测结果的不确定性的置信度，并将置信度超过预设置信阈值的预测结果输出。

在上述实施例中，优选地，联合实体关系抽取模型在进行关系抽取过程中，采用Teach-Forcing方式选择实体边界和实体对作为关系抽取过程的输入。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种专业领域论文的批量实体抽取方法，其特征在于，包括：

采用较大规模开源数据集对联合实体关系抽取模型进行预训练；

针对所述联合实体关系抽取模型输出的实体识别结果中的单个实体加入边界信息并作为输出信息传递；

以所要抽取实体的专业领域的文献数据集对所述联合实体关系抽取模型进行迁移学习；

构建所述专业领域的词典匹配规则，并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入所述联合实体关系抽取模型的训练集中；

对所述联合实体关系抽取模型的训练集进行迭代扩充和反复训练，直至训练结果无明显正收益；

将需要抽取实体的文本输入训练完成的所述联合实体关系抽取模型，得到关系分类的实体信息。

2.根据权利要求1所述的专业领域论文的批量实体抽取方法，其特征在于，还包括：在所述联合实体关系抽取模型进行关系抽取过程中，采用Teach-Forcing方式选择实体边界和实体对作为关系抽取过程的输入。

3.根据权利要求1所述的专业领域论文的批量实体抽取方法，其特征在于，还包括：引入主动学习机制，采用信息熵作为实体关系预测结果的不确定性的置信度，并将置信度超过预设置信阈值的预测结果输出。

4.根据权利要求1所述的专业领域论文的批量实体抽取方法，其特征在于，所述较大规模开源数据集采用与所要抽取实体的专业领域的应用场景相近似的数据集。

5.根据权利要求1所述的专业领域论文的批量实体抽取方法，其特征在于，所述以所要抽取实体的专业领域的文献数据集对所述联合实体关系抽取模型进行迁移学习具体包括：

对所要抽取实体的专业领域的文献数据集进行人工标注实体及相应的实体间关系；

将标注后的所述文献数据集进行数据清洗，以得到与预训练过程中所述开源数据集相同的标注格式和输入方式；

将数据清洗后的所述文献数据集输入预训练完成后的所述联合实体关系抽取模型进行二次学习训练，同时更新模型参数。

6.根据权利要求5所述的专业领域论文的批量实体抽取方法，其特征在于，所述构建所述专业领域的词典匹配规则并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入所述联合实体关系抽取模型的训练集中的具体过程包括：

基于常见实体类型和关系类型的关键词创建及扩充模板词典，并建立词典匹配规则；

将训练数据输入所述词典匹配规则进行规则匹配；

将所述训练数据输入迁移学习后的所述联合实体关系抽取模型进行预测；

将所述联合实体关系抽取模型的预测结果与所述词典匹配规则的匹配结果基于编辑距离进行比较，若比较结果一致，则将当前训练数据扩充至所述联合实体关系抽取模型的训练集中。

7.根据权利要求1所述的专业领域论文的批量实体抽取方法，其特征在于，所述联合实体关系抽取模型在扩充训练集的反复训练，直至训练结果的损失函数达到预设阈值范围，所述联合实体关系抽取模型训练完成。

8.一种专业领域论文的批量实体抽取系统，应用如权利要求1至7中任一项所述的专业领域论文的批量实体抽取方法，其特征在于，包括：

预训练模块，用于采用较大规模开源数据集对联合实体关系抽取模型进行预训练；

边界增加模块，用于针对所述联合实体关系抽取模型输出的实体识别结果中的单个实体加入边界信息并作为输出信息传递；

迁移学习模块，用于以所要抽取实体的专业领域的文献数据集对所述联合实体关系抽取模型进行迁移学习；

样本扩充模块，用于构建所述专业领域的词典匹配规则，并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入所述联合实体关系抽取模型的训练集中；

迭代训练模块，用于对所述联合实体关系抽取模型的训练集进行迭代扩充和反复训练，直至训练结果无明显正收益；

实体抽取模块，用于将需要抽取实体的文本输入训练完成的所述联合实体关系抽取模型，得到关系分类的实体信息。

9.根据权利要求8所述的专业领域论文的批量实体抽取系统，其特征在于，还包括：主动学习模块，用于引入主动学习机制，采用信息熵作为实体关系预测结果的不确定性的置信度，并将置信度超过预设置信阈值的预测结果输出。

10.根据权利要求8所述的专业领域论文的批量实体抽取系统，其特征在于，所述联合实体关系抽取模型在进行关系抽取过程中，采用Teach-Forcing方式选择实体边界和实体对作为关系抽取过程的输入。