CN113051366A - 专业领域论文的批量实体抽取方法及系统 - Google Patents
专业领域论文的批量实体抽取方法及系统 Download PDFInfo
- Publication number
- CN113051366A CN113051366A CN202110260658.6A CN202110260658A CN113051366A CN 113051366 A CN113051366 A CN 113051366A CN 202110260658 A CN202110260658 A CN 202110260658A CN 113051366 A CN113051366 A CN 113051366A
- Authority
- CN
- China
- Prior art keywords
- entity
- training
- relationship extraction
- model
- extraction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 130
- 238000012549 training Methods 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000013526 transfer learning Methods 0.000 claims abstract description 23
- 230000008901 benefit Effects 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims description 14
- 238000002372 labelling Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 abstract description 4
- 238000013508 migration Methods 0.000 description 7
- 230000005012 migration Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 239000003054 catalyst Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种专业领域论文的批量实体抽取方法及系统,方法包括:采用开源数据集对联合实体关系抽取模型进行预训练;针对模型输出的实体识别结果中的单个实体加入边界信息;以所要抽取实体的专业领域的文献数据集对模型进行迁移学习;构建专业领域的词典匹配规则,并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入训练集中;对训练集进行迭代扩充和反复训练,直至训练结果无明显正收益;将需要抽取实体的文本输入训练完成的模型,得到关系分类的实体信息。通过本发明的技术方案,有效解决了错差累积和关系重叠的问题,减少了人力成本及其所导致的高标注成本,且为跨领域实施带来更多的可能和便利。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种专业领域论文的批量实体抽取方法以及一种专业领域论文的批量实体抽取系统。
背景技术
随着深度学习技术的发展,以及在自然语言处理领域的不断突破,基于深度学习的实体识别和关系抽取任务已经逐渐从由于具有标注成本高、误差率高、局限于特定领域等诸多缺点而导致实际应用价值低、落地成本高的窘境,发展到了可以在少样本、复杂关系、跨领域的应用上实现一定价值。
但是,目前的实体关系抽取任务方法仍主要存在两大问题:(1)割裂实体识别与关系抽取两个任务之间的联系。即关系抽取任务是基于实体识别任务的结果,且关系抽取任务结果对于实体识别任务没有起到修正作用。此问题会直接导致误差传播,即若前一任务的结果出现错误,后一任务的结果必然错误,从而导致模型效果变差,准确率降低。(2)无法形象刻画多实体之间的复杂关系。传统实体关系抽取任务采用BIO序列标注的方式对实体、关系进行预测。然而,在实际应用过程中,常常存在实体重叠、关系重叠等诸多特殊情况,需要设计比较复杂的联合标签才能完成对实体关系三元组的抽取。然而标签越复杂,其出现的次数通常就会越少,从而引发严重的样本不均衡问题,导致抽取效果变差。
同时在实际应用领域,尤其是较为小众的专业领域,受到数据集数量及质量的限制,大多仍采用人工制定模板、大量标注训练样本的方式进行实体关系抽取的任务,该方式误差率高、泛化能力弱、并且需要专家耗费大量人力成本。
发明内容
针对上述问题,本发明提供了一种专业领域论文的批量实体抽取方法及系统,通过将实体识别子任务和关系抽取子任务同时放到模型里进行训练,使两个子任务共享词嵌入层的权重,然后再综合两个子任务的损失函数进行反向传播以更新模型的各神经元权重。对于实体识别任务,在最后输出层选择出所有可能是实体片段的候选集,并将其实体边界作为补充信息传递到后续任务。对于关系抽取任务,则综合文本序列、实体片段及实体边界进行关系抽取预测。该方法可以有效解决错差累积和关系重叠的问题,减少构建复杂三元组标签带来的人力成本及其所导致的高标注成本,与诸多实体关系抽取模型相比有明显优势。同时,由于使用同一套标注规则,也为跨领域进行实体关系抽取带来更多的可能和便利。
为实现上述目的,本发明提供了一种专业领域论文的批量实体抽取方法,包括:采用较大规模开源数据集对联合实体关系抽取模型进行预训练;针对所述联合实体关系抽取模型输出的实体识别结果中的单个实体加入边界信息并作为输出信息传递;以所要抽取实体的专业领域的文献数据集对所述联合实体关系抽取模型进行迁移学习;构建所述专业领域的词典匹配规则,并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入所述联合实体关系抽取模型的训练集中;对所述联合实体关系抽取模型的训练集进行迭代扩充和反复训练,直至训练结果无明显正收益;将需要抽取实体的文本输入训练完成的所述联合实体关系抽取模型,得到关系分类的实体信息。
在上述技术方案中,优选地,专业领域论文的批量实体抽取方法还包括:在所述联合实体关系抽取模型进行关系抽取过程中,采用Teach-Forcing方式选择实体边界和实体对作为关系抽取过程的输入。
在上述技术方案中,优选地,专业领域论文的批量实体抽取方法还包括:引入主动学习机制,采用信息熵作为实体关系预测结果的不确定性的置信度,并将置信度超过预设置信阈值的预测结果输出。
在上述技术方案中,优选地,所述较大规模开源数据集采用与所要抽取实体的专业领域的应用场景相近似的数据集。
在上述技术方案中,优选地,所述以所要抽取实体的专业领域的文献数据集对所述联合实体关系抽取模型进行迁移学习具体包括:对所要抽取实体的专业领域的文献数据集进行人工标注实体及相应的实体间关系;将标注后的所述文献数据集进行数据清洗,以得到与预训练过程中所述开源数据集相同的标注格式和输入方式;将数据清洗后的所述文献数据集输入预训练完成后的所述联合实体关系抽取模型进行二次学习训练,同时更新模型参数。
在上述技术方案中,优选地,所述构建所述专业领域的词典匹配规则并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入所述联合实体关系抽取模型的训练集中的具体过程包括:基于常见实体类型和关系类型的关键词创建及扩充模板词典,并建立词典匹配规则;将训练数据输入所述词典匹配规则进行规则匹配;将所述训练数据输入迁移学习后的所述联合实体关系抽取模型进行预测;将所述联合实体关系抽取模型的预测结果与所述词典匹配规则的匹配结果基于编辑距离进行比较,若比较结果一致,则将当前训练数据扩充至所述联合实体关系抽取模型的训练集中。
在上述技术方案中,优选地,所述联合实体关系抽取模型在扩充训练集的反复训练,直至训练结果的损失函数达到预设阈值范围,所述联合实体关系抽取模型训练完成。
本发明还提出一种专业领域论文的批量实体抽取系统,应用如上述技术方案中任一项提出的专业领域论文的批量实体抽取方法,包括:预训练模块,用于采用较大规模开源数据集对联合实体关系抽取模型进行预训练;边界增加模块,用于针对所述联合实体关系抽取模型输出的实体识别结果中的单个实体加入边界信息并作为输出信息传递;迁移学习模块,用于以所要抽取实体的专业领域的文献数据集对所述联合实体关系抽取模型进行迁移学习;样本扩充模块,用于构建所述专业领域的词典匹配规则,并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入所述联合实体关系抽取模型的训练集中;迭代训练模块,用于对所述联合实体关系抽取模型的训练集进行迭代扩充和反复训练,直至训练结果无明显正收益;实体抽取模块,用于将需要抽取实体的文本输入训练完成的所述联合实体关系抽取模型,得到关系分类的实体信息。
在上述技术方案中,优选地,专业领域论文的批量实体抽取系统还包括:主动学习模块,用于引入主动学习机制,采用信息熵作为实体关系预测结果的不确定性的置信度,并将置信度超过预设置信阈值的预测结果输出。
在上述技术方案中,优选地,所述联合实体关系抽取模型在进行关系抽取过程中,采用Teach-Forcing方式选择实体边界和实体对作为关系抽取过程的输入。
与现有技术相比,本发明的有益效果为:通过将实体识别子任务和关系抽取子任务同时放到模型里进行训练,使两个子任务共享词嵌入层的权重,然后再综合两个子任务的损失函数进行反向传播以更新模型的各神经元权重。对于实体识别任务,在最后输出层选择出所有可能是实体片段的候选集,并将其实体边界作为补充信息传递到后续任务。对于关系抽取任务,则综合文本序列、实体片段及实体边界进行关系抽取预测。该方法可以有效解决错差累积和关系重叠的问题,减少构建复杂三元组标签带来的人力成本及其所导致的高标注成本,与诸多实体关系抽取模型相比有明显优势。同时,由于使用同一套标注规则,也为跨领域进行实体关系抽取带来更多的可能和便利。
附图说明
图1为本发明一种实施例公开的专业领域论文的批量实体抽取方法的流程示意图;
图2为本发明一种实施例公开的联合实体关系抽取模型的信息传递示意图;
图3为本发明一种实施例公开的联合实体关系抽取模型的训练和预测流程示意图;
图4为本发明一种实施例公开的专业领域论文的批量实体抽取系统的模块示意图。
图中,各组件与附图标记之间的对应关系为:
11.预训练模块,12.边界增加模块,13.迁移学习模块,14.样本扩充模块,15.迭代训练模块,16.实体抽取模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1至图3所示,根据本发明提供的一种专业领域论文的批量实体抽取方法,包括:采用较大规模开源数据集对联合实体关系抽取模型进行预训练;针对联合实体关系抽取模型输出的实体识别结果中的单个实体加入边界信息并作为输出信息传递;以所要抽取实体的专业领域的文献数据集对联合实体关系抽取模型进行迁移学习;构建专业领域的词典匹配规则,并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入联合实体关系抽取模型的训练集中;对联合实体关系抽取模型的训练集进行迭代扩充和反复训练,直至训练结果无明显正收益;将需要抽取实体的文本输入训练完成的联合实体关系抽取模型,得到关系分类的实体信息。
在该实施例中,通过将实体识别子任务和关系抽取子任务同时放到模型里进行训练,使两个子任务共享词嵌入层的权重,然后再综合两个子任务的损失函数进行反向传播以更新模型的各神经元权重。对于实体识别任务,在最后输出层选择出所有可能是实体片段的候选集,并将其实体边界作为补充信息传递到后续任务。对于关系抽取任务,则综合文本序列、实体片段及实体边界进行关系抽取预测。该方法可以有效解决错差累积和关系重叠的问题,减少构建复杂三元组标签带来的人力成本及其所导致的高标注成本,与诸多实体关系抽取模型相比有明显优势。同时,由于使用同一套标注规则,也为跨领域进行实体关系抽取带来更多的可能和便利。
其中,优选地,较大规模开源数据集采用与所要抽取实体的专业领域的应用场景相近似的数据集。本发明采用计算机及材料科技文献领域的开源数据集SciERC作为预训练模型的样本,该数据集同样是从文献中抽取信息,与实际应用场景近似,但由于不同领域的文献其实体类型、关系类型及样本词均不相同,故需要进行迁移学习。
此外,为进行迁移学习任务,构建了所在领域的文献数据集,随后利用该数据集对预训练模型进行迁移学习,并针对该数据集进行少样本下的模型优化,在跨领域小样本数据集下,使用本发明提出的优化后的联合实体关系抽取模型后,实体关系抽取效果明显优于基于规则的抽取方式和先前模型,同时可以实现不同专业领域论文的批量实体关系抽取。具体地,本发明以化学领域为例,从化学领域顶级会议ACB中选择催化剂制备文献共100篇,人工定位到该文献中催化剂制备章节,标注实体、关系共15类,实体共3000余个,实体间关系共1000余对,作为对模型进行迁移学习的数据集。
在上述实施例中,优选地,以所要抽取实体的专业领域的文献数据集对联合实体关系抽取模型进行迁移学习具体包括:对所要抽取实体的专业领域的文献数据集进行人工标注实体及相应的实体间关系;将标注后的文献数据集进行数据清洗,以得到与预训练过程中开源数据集相同的标注格式和输入方式;将数据清洗后的文献数据集输入预训练完成后的联合实体关系抽取模型进行二次学习训练,同时更新模型参数。
具体地,对于实体关系抽取任务来说,其目的为预测不同实体片段对之间的关系类型,目前现有的方法只是重复适用不同跨度来预测它们之间的关系,而这些表示只捕捉到了每个实体周围的上下文关系,而无法捕捉特定片段对之间的依赖关系。对此,本发明除实体周围的上下文关系外,对于实体边界的确认对关系抽取任务有重要影响。因此,本发明将实体识别的结果针对单个实体加入边界信息输出,同时,考虑到大量的预测实体信息的传入会在训练过程中融入过多的噪声,从而降低总体F1值。
也由于上述原因,因此本发明在联合实体关系抽取模型进行关系抽取过程中,采用Teach-Forcing方式选择实体边界和实体对作为关系抽取过程的输入,即有30%概率使用正确的实体对来替代预测的实体对作为关系抽取的输入部分。这样既可以将实体中的边界信息传递给关系抽取任务,又可以保证没有造成在传递过程中产生过大的噪声影响。
在上述实施例中,优选地,构建专业领域的词典匹配规则并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入联合实体关系抽取模型的训练集中的具体过程包括:
基于常见实体类型和关系类型的关键词创建及扩充模板词典,并建立词典匹配规则,并根据新词发现算法,扩充模板词典;
将训练数据输入词典匹配规则进行规则匹配;
将训练数据输入迁移学习后的联合实体关系抽取模型进行预测;
将联合实体关系抽取模型的预测结果与词典匹配规则的匹配结果基于编辑距离进行比较,若比较结果一致,则将当前训练数据扩充至联合实体关系抽取模型的训练集中,对模型进行增量学习。
在上述实施例中,优选地,专业领域论文的批量实体抽取方法还包括:引入主动学习机制,采用信息熵作为实体关系预测结果的不确定性的置信度,并将置信度超过预设置信阈值的预测结果输出。
具体地,实体关系抽取本质为概率模型,其最终预测结果是为概率最大的实体类别,即:所有概率中的y最大值,其中,P为条件概率,yi为输入x条件下的预测结果,e为自然常数。然而,如共有3个类别,概率值分别为0.9,0.05,0.05;与概率值分别为0.4,0.3,0.3,预测结果虽同属于类别1,但其置信度显然不同。故引入主动学习机制,对其置信度进行评判,即:
其中,X为输入样本,argmaxx为输入x的情况下,概率最大的yi的概率值。
在该发明中,采用了熵的概念来表示系统不确定性的衡量标准,熵越大表示系统的不确定性越大,熵越小表示系统的不确定性越小。
在上述实施例中,优选地,联合实体关系抽取模型在扩充训练集的反复训练,直至训练结果的损失函数达到预设阈值范围,联合实体关系抽取模型训练完成。
如图4所示,本发明还提出一种专业领域论文的批量实体抽取系统,应用如上述实施例中任一项提出的专业领域论文的批量实体抽取方法,包括:预训练模块11,用于采用较大规模开源数据集对联合实体关系抽取模型进行预训练;边界增加模块12,用于针对联合实体关系抽取模型输出的实体识别结果中的单个实体加入边界信息并作为输出信息传递;迁移学习模块13,用于以所要抽取实体的专业领域的文献数据集对联合实体关系抽取模型进行迁移学习;样本扩充模块14,用于构建专业领域的词典匹配规则,并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入联合实体关系抽取模型的训练集中;迭代训练模块15,用于对联合实体关系抽取模型的训练集进行迭代扩充和反复训练,直至训练结果无明显正收益;实体抽取模块16,用于将需要抽取实体的文本输入训练完成的联合实体关系抽取模型,得到关系分类的实体信息。
在上述实施例中,优选地,专业领域论文的批量实体抽取系统还包括:主动学习模块,用于引入主动学习机制,采用信息熵作为实体关系预测结果的不确定性的置信度,并将置信度超过预设置信阈值的预测结果输出。
在上述实施例中,优选地,联合实体关系抽取模型在进行关系抽取过程中,采用Teach-Forcing方式选择实体边界和实体对作为关系抽取过程的输入。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种专业领域论文的批量实体抽取方法,其特征在于,包括:
采用较大规模开源数据集对联合实体关系抽取模型进行预训练;
针对所述联合实体关系抽取模型输出的实体识别结果中的单个实体加入边界信息并作为输出信息传递;
以所要抽取实体的专业领域的文献数据集对所述联合实体关系抽取模型进行迁移学习;
构建所述专业领域的词典匹配规则,并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入所述联合实体关系抽取模型的训练集中;
对所述联合实体关系抽取模型的训练集进行迭代扩充和反复训练,直至训练结果无明显正收益;
将需要抽取实体的文本输入训练完成的所述联合实体关系抽取模型,得到关系分类的实体信息。
2.根据权利要求1所述的专业领域论文的批量实体抽取方法,其特征在于,还包括:在所述联合实体关系抽取模型进行关系抽取过程中,采用Teach-Forcing方式选择实体边界和实体对作为关系抽取过程的输入。
3.根据权利要求1所述的专业领域论文的批量实体抽取方法,其特征在于,还包括:引入主动学习机制,采用信息熵作为实体关系预测结果的不确定性的置信度,并将置信度超过预设置信阈值的预测结果输出。
4.根据权利要求1所述的专业领域论文的批量实体抽取方法,其特征在于,所述较大规模开源数据集采用与所要抽取实体的专业领域的应用场景相近似的数据集。
5.根据权利要求1所述的专业领域论文的批量实体抽取方法,其特征在于,所述以所要抽取实体的专业领域的文献数据集对所述联合实体关系抽取模型进行迁移学习具体包括:
对所要抽取实体的专业领域的文献数据集进行人工标注实体及相应的实体间关系;
将标注后的所述文献数据集进行数据清洗,以得到与预训练过程中所述开源数据集相同的标注格式和输入方式;
将数据清洗后的所述文献数据集输入预训练完成后的所述联合实体关系抽取模型进行二次学习训练,同时更新模型参数。
6.根据权利要求5所述的专业领域论文的批量实体抽取方法,其特征在于,所述构建所述专业领域的词典匹配规则并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入所述联合实体关系抽取模型的训练集中的具体过程包括:
基于常见实体类型和关系类型的关键词创建及扩充模板词典,并建立词典匹配规则;
将训练数据输入所述词典匹配规则进行规则匹配;
将所述训练数据输入迁移学习后的所述联合实体关系抽取模型进行预测;
将所述联合实体关系抽取模型的预测结果与所述词典匹配规则的匹配结果基于编辑距离进行比较,若比较结果一致,则将当前训练数据扩充至所述联合实体关系抽取模型的训练集中。
7.根据权利要求1所述的专业领域论文的批量实体抽取方法,其特征在于,所述联合实体关系抽取模型在扩充训练集的反复训练,直至训练结果的损失函数达到预设阈值范围,所述联合实体关系抽取模型训练完成。
8.一种专业领域论文的批量实体抽取系统,应用如权利要求1至7中任一项所述的专业领域论文的批量实体抽取方法,其特征在于,包括:
预训练模块,用于采用较大规模开源数据集对联合实体关系抽取模型进行预训练;
边界增加模块,用于针对所述联合实体关系抽取模型输出的实体识别结果中的单个实体加入边界信息并作为输出信息传递;
迁移学习模块,用于以所要抽取实体的专业领域的文献数据集对所述联合实体关系抽取模型进行迁移学习;
样本扩充模块,用于构建所述专业领域的词典匹配规则,并将匹配结果与迁移学习后的模型预测结果一致的样本数据扩充入所述联合实体关系抽取模型的训练集中;
迭代训练模块,用于对所述联合实体关系抽取模型的训练集进行迭代扩充和反复训练,直至训练结果无明显正收益;
实体抽取模块,用于将需要抽取实体的文本输入训练完成的所述联合实体关系抽取模型,得到关系分类的实体信息。
9.根据权利要求8所述的专业领域论文的批量实体抽取系统,其特征在于,还包括:主动学习模块,用于引入主动学习机制,采用信息熵作为实体关系预测结果的不确定性的置信度,并将置信度超过预设置信阈值的预测结果输出。
10.根据权利要求8所述的专业领域论文的批量实体抽取系统,其特征在于,所述联合实体关系抽取模型在进行关系抽取过程中,采用Teach-Forcing方式选择实体边界和实体对作为关系抽取过程的输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110260658.6A CN113051366B (zh) | 2021-03-10 | 2021-03-10 | 专业领域论文的批量实体抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110260658.6A CN113051366B (zh) | 2021-03-10 | 2021-03-10 | 专业领域论文的批量实体抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113051366A true CN113051366A (zh) | 2021-06-29 |
CN113051366B CN113051366B (zh) | 2024-08-20 |
Family
ID=76510990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110260658.6A Active CN113051366B (zh) | 2021-03-10 | 2021-03-10 | 专业领域论文的批量实体抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051366B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200160212A1 (en) * | 2018-11-21 | 2020-05-21 | Korea Advanced Institute Of Science And Technology | Method and system for transfer learning to random target dataset and model structure based on meta learning |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111597420A (zh) * | 2020-04-29 | 2020-08-28 | 西安理工大学 | 基于深度学习的轨道交通规范关系抽取方法 |
CN111680504A (zh) * | 2020-08-11 | 2020-09-18 | 四川大学 | 法律信息抽取模型及方法及系统及装置及辅助系统 |
CN111914091A (zh) * | 2019-05-07 | 2020-11-10 | 四川大学 | 一种基于强化学习的实体和关系联合抽取方法 |
CN111967266A (zh) * | 2020-09-09 | 2020-11-20 | 中国人民解放军国防科技大学 | 中文命名实体识别模型及其构建方法和应用 |
-
2021
- 2021-03-10 CN CN202110260658.6A patent/CN113051366B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200160212A1 (en) * | 2018-11-21 | 2020-05-21 | Korea Advanced Institute Of Science And Technology | Method and system for transfer learning to random target dataset and model structure based on meta learning |
CN111914091A (zh) * | 2019-05-07 | 2020-11-10 | 四川大学 | 一种基于强化学习的实体和关系联合抽取方法 |
CN111597420A (zh) * | 2020-04-29 | 2020-08-28 | 西安理工大学 | 基于深度学习的轨道交通规范关系抽取方法 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111680504A (zh) * | 2020-08-11 | 2020-09-18 | 四川大学 | 法律信息抽取模型及方法及系统及装置及辅助系统 |
CN111967266A (zh) * | 2020-09-09 | 2020-11-20 | 中国人民解放军国防科技大学 | 中文命名实体识别模型及其构建方法和应用 |
Non-Patent Citations (3)
Title |
---|
庄传志 等: "基于深度学习的关系抽取研究综述", 《中文信息学报》, 31 December 2019 (2019-12-31) * |
郭剑毅;雷春雅;余正涛;苏磊;赵君;田维;: "基于信息熵的半监督领域实体关系抽取研究", 山东大学学报(工学版), no. 04, 16 August 2011 (2011-08-16) * |
黄培馨;赵翔;方阳;朱慧明;肖卫东;: "融合对抗训练的端到端知识三元组联合抽取", 计算机研究与发展, no. 12, 15 December 2019 (2019-12-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN113051366B (zh) | 2024-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501182B2 (en) | Method and apparatus for generating model | |
CN113505244B (zh) | 基于深度学习的知识图谱构建方法、系统、设备及介质 | |
CN114492363B (zh) | 一种小样本微调方法、系统及相关装置 | |
CN112364174A (zh) | 基于知识图谱的病人病历相似度评估方法及系统 | |
CN109190110A (zh) | 一种命名实体识别模型的训练方法、系统及电子设备 | |
CN111695052A (zh) | 标签分类方法、数据处理设备、可读存储介质 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
CN116610803B (zh) | 基于大数据的产业链优企信息管理方法及系统 | |
CN112052329A (zh) | 文本摘要生成方法、装置、计算机设备及可读存储介质 | |
CN114564563A (zh) | 一种基于关系分解的端到端实体关系联合抽取方法及系统 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN114218940B (zh) | 文本信息处理、模型训练方法、装置、设备及存储介质 | |
CN113392929B (zh) | 一种基于词嵌入与自编码器融合的生物序列特征提取方法 | |
CN113362026B (zh) | 文本处理方法及装置 | |
CN115344668A (zh) | 一种多领域与多学科科技政策资源检索方法及装置 | |
CN112035629B (zh) | 基于符号化知识与神经网络的问答模型的实现方法 | |
EP4369245A1 (en) | Enhanced named entity recognition (ner) using custom-built regular expression (regex) matcher and heuristic entity ruler | |
CN113051366B (zh) | 专业领域论文的批量实体抽取方法及系统 | |
CN116302953A (zh) | 一种基于增强嵌入向量语义表示的软件缺陷定位方法 | |
CN113792550B (zh) | 预测答案的确定方法及装置、阅读理解方法及装置 | |
CN112966501B (zh) | 一种新词发现方法、系统、终端及介质 | |
CN115936010A (zh) | 文本缩写数据处理方法、装置 | |
CN115687917A (zh) | 样本处理方法以及装置、识别模型训练方法及装置 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN113626537A (zh) | 一种面向知识图谱构建的实体关系抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |