CN111563383A - 一种基于BERT与SemiCRF的中文命名实体识别方法 - Google Patents

一种基于BERT与SemiCRF的中文命名实体识别方法 Download PDF

Info

Publication number
CN111563383A
CN111563383A CN202010272320.8A CN202010272320A CN111563383A CN 111563383 A CN111563383 A CN 111563383A CN 202010272320 A CN202010272320 A CN 202010272320A CN 111563383 A CN111563383 A CN 111563383A
Authority
CN
China
Prior art keywords
crf
named entity
layer
score
entity recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010272320.8A
Other languages
English (en)
Inventor
蔡毅
郑煜佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010272320.8A priority Critical patent/CN111563383A/zh
Publication of CN111563383A publication Critical patent/CN111563383A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于BERT与SemiCRF的中文命名实体识别方法,构建命名实体识别模型,所述方法包括步骤:获取预训练好的BERT模型;对命名实体识别的原始语料数据进行预处理,构建命名实体识别的训练集;将构建的命名实体识别的训练集数据输入到预训练好的BERT语言模型;将BERT语言模型的输出依次输入到双向LSTM神经网络以及CRF与SemiCRF联合模块中,对双向LSTM神经网络及联合模块进行多次迭代训练;使用训练完成得到的完整命名实体识别模型,对中文文本进行命名实体识别。本发明解决了传统的word2vec无法区分多义词的问题,并通过引入的基于SemiCRF的方法,将传统的CRF方法往往会忽略掉的词级别信息与字级别的信息结合起来,在一定程度上提高了中文命名实体识别的效果。

Description

一种基于BERT与SemiCRF的中文命名实体识别方法
技术领域
本发明涉及命名实体识别技术领域,尤其涉及一种基于BERT与 SemiCRF的中文命名实体识别方法。
背景技术
命名实体识别(Named Entity Recognition,NER)是属于自然语言处理(NaturalLanguage Processing,NLP)领域下的一个任务,该任务旨在从文本中识别出实体并将其分类到预定义好的实体类型,如人名、地名、机构名等。命名实体识别不仅可以单独作为用于信息提取的工具,还可以在自然语言处理领域的其他任务和应用中发挥重要的作用,如信息检索,自动文本摘要,问答,机器翻译和知识库构建等。
现有的命名实体识别比较主流的方法是Bi-LSTM+CRF,其中所用到的 Bi-LSTM(双向长短期记忆网络)是深度学习中非常流行的一种深度神经网络,在命名实体识别中能够学习到长序列中的特征上下文关系;所用的 CRF(条件随机场)是一种传统的机器学习方法,在命名实体识别中能够学习到标签的上下文关系。
上述基于Bi-LSTM+CRF的方法需要自行从命名实体识别数据集中学习词嵌入表示,这里存在的缺陷包括了:Bi-LSTM在学习词嵌入表示时无法应对一词多义的情况;命名实体识别数据集本身规模不算大,能够从中学习到的词嵌入表示的质量有限;Bi-LSTM不能并行处理数据,这导致其设置的词嵌入表示的规模大小受到限制不能太大,否则训练学习的时间成本将成倍增长。此外,在文本中存在着这一特性——命名实体大多以多个字组成的片段(segment)存在,而基于Bi-LSTM+CRF的方法中的CRF 条件随机场以字级别为单位没能利用到片段级别的信息。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于BERT与 SemiCRF的中文命名实体识别方法。本发明能够解决词嵌入表示的学习质量有限和无法解决的一词多义的问题,并且能够避免CRF仅能利用字级别的信息而忽略了片段级别的信息这一问题。
本发明的目的能够通过以下技术方案实现:
一种基于BERT与SemiCRF的中文命名实体识别方法,构建命名实体识别模型,所述模型包括BERT语言模型、双向LSTM以及CRF与SemiCRF 联合模块,所述方法包括步骤:
获取预训练好的BERT语言模型;
对命名实体识别的原始语料数据进行预处理,构建命名实体识别的训练集;
将得到的命名实体识别的训练集数据输入到预训练好的BERT语言模型;
将BERT语言模型的输出依次输入到双向LSTM神经网络以及CRF与 SemiCRF联合模块中,对双向LSTM神经网络及联合模块进行多次迭代训练;
使用训练完成得到的完整命名实体识别模型,对中文文本进行命名实体识别。
进一步地,预训练好的BERT语言模型的获取方式包括:下载谷歌开源的BERT源码,使用BERT源码在海量的无标签中文文本语料上自行预训练出BERT预训练语言模型;或者直接下载谷歌官方预训练好的中文BERT语言模型chinese_L-12_H-768_A-12。
进一步地,所述对命名实体识别的原始语料数据进行预处理,构建命名实体识别的训练集的步骤中,包括:
对于命名实体识别原始语料进行常规数据预处理;
根据实际的应用需求确定所要识别的实体类型,或者直接使用通用的实体类型;
采用BIOES的实体标注方法对原始语料进行标注;
根据实际的应用需求制定特定的标注规则,结合上述标注规则,对未标注过的原始语料进行人工标注,或对于已标注过的原始语料进行标注的转换和修正。
进一步地,所述将BERT语言模型的输出依次输入到双向LSTM神经网络以及CRF与SemiCRF联合模块中,对双向LSTM神经网络及联合模块进行多次迭代训练的步骤中,包括:
将BERT语言模型输出的序列输入到双向LSTM神经网络;
双向LSTM神经网络输出该序列中每个词被标注成所有实体类型的概率分布向量,即每个词在字级别(word level)的CRF特征;
将得到的字级别的CRF特征序列分别输入到CRF与SemiCRF联合模块中的CRF层和SemiCRF层;
CRF层采用bi-LSTM+CRF方法计算出CRF层的损失函数;
SemiCRF层根据句中各个词的CRF特征和ground true标签计算句中各个段的SemiCRF特征,进而计算最佳路径的分数;
SemiCRF层采用forward算法通过SemiCRF特征转移矩阵计算出所有路径的分数;
根据最佳路径分数和所有路径分数计算SemiCRF层的损失函数;
采用SGD用CRF层的损失函数与SemiCRF层的损失函数的加权和来更新整个命名实体识别模型的参数。
进一步地,所述使用训练完成得到的完整命名实体识别模型,对中文文本进行命名实体识别的步骤中,包括:
将需要命名实体识别的语句输入到训练完成的完整命名实体识别模型;
输入的序列在经过预训练好的BERT语言模型后依次通过双向LSTM 神经网络和CRF与SemiCRF联合模块,先计算输入语句每个词的CRF特征,再计算CRF层的CRF特征矩阵和SemiCRF层的SemiCRF特征矩阵;
使用viterbi算法分别在CRF层与SemiCRF层解码出输入语句的最佳路径即得到了CRF层标签序列以及该序列在CRF层上的分数scoreC-C、 SemiCRF层标签序列以及该序列在SemiCRF层上的分数scoreS-S
计算CRF层解码所得的标签序列在SemiCRF层中的分数scoreC-S,以及计算SemiCRF层解码所得的标签序列在CRF层中的分数scoreS-C
分别计算CRF层标签序列的总分scoreC-C+scoreC-S以及SemiCRF层标签序列的总分scoreS-S+scoreS-C,由于分数的计算经过负对数似然处理,因此取分数最小的那条标签序列作为命名实体识别的结果。
本发明相较于现有技术,具有以下的有益效果:
1、本发明所使用的BERT模型能够通过预训练和微调的的方式从规模庞大的中文文本中学习到质量很好的词嵌入的表示,而不限于需要经过人工标注处理过的命名实体识别数据集,并且能够根据上下文场景来调整当前语义,从而解决一词多义的问题。
2、本发明将半马尔可夫条件随机场(SemiCRF)引入命名实体识别中,相较于只利用到字级别信息的条件随机场(CRF),能够更适应具有明显段级特征的命名实体,并且为了保证SemiCRF的命名实体识别效果,将其在一定程度上与CRF结合使得模型能够同时有效地利用字级别和片段级别的特征。
3、本发明在训练和解码的过程同时考虑了CRF和SemiCRF两种方法,特别是解码时择优作为最后结果能够保证命名实体识别的精确率。
附图说明
图1为本发明中一种基于BERT与SemiCRF的中文命名实体识别方法的流程图。
图2为本发明实施例中基于BERT与SemiCRF的中文命名实体识别的命名实体识别模型的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示为一种基于BERT与SemiCRF的中文命名实体识别方法的流程图,构建如图2所示的命名实体识别模型,所述模型包括BERT语言模型、双向LSTM以及CRF与SemiCRF联合模块,所述方法所述方法包括步骤:
S1、获取预训练好的BERT模型;
具体地,获取方式包括:下载谷歌开源的BERT源码,使用BERT源码在海量的无标签中文文本语料上自行使用现有的预训练技术得出BERT 预训练语言模型;或者直接下载谷歌官方预训练好的中文BERT语言模型chinese_L-12_H-768_A-12。
S2、对命名实体识别的原始语料数据进行预处理,构建命名实体识别的训练集,包括步骤:
S21、对于命名实体识别原始语料进行常规数据预处理,包括对错别字进行修正以及对字符进行规范化等;所述原始语料数据为已经标注了的命名实体数据;
S22、根据实际的应用需求确定所要识别的实体类型,或者直接使用通用的实体类型如人名(PERSON)、地名(LOCATION)、机构名(ORGANIZATION)等;
S23、为了应对实体长度不一、难以区分实体边界的情况,采用BIOES 的实体标注方法:B标注长实体的开头、I标注长实体的内部、E标注长实体的尾部、S标注仅用一个字表示的实体、O标注非实体,比如“刘玄德”将被标注为(B-PER,I-PER,E-PER);
S24、根据实际的应用需求制定特定的标注规则,结合步骤S22和S23 的标注规则,对于未标注过的原始语料进行人工标注,或对于已标注过的原始语料进行标注的转换和修正。
S3、将步骤S2预处理所得的命名实体识别的训练集数据输入到预训练好的BERT语言模型。
具体地,所述训练集数据以句子为单位输入到预训练好的BERT语言模型中,BERT语言模型输出为词嵌入向量序列。
S4、将步骤S3中的BERT语言模型的输出,依次输入到双向LSTM 神经网络以及CRF与SemiCRF联合模块中,对双向LSTM神经网络及联合模块进行多次迭代训练,包括步骤:
S41、将BERT语言模型输出的序列输入到双向LSTM神经网络;
S42、双向LSTM神经网络输出该序列中每个词被标注成所有实体类型的概率分布向量,即每个词在字级别(word level)的CRF特征;
S43、将得到的CRF特征序列分别输入到CRF与SemiCRF联合模块中的CRF层和SemiCRF层;
S44、CRF层采用bi-LSTM+CRF方法计算出CRF层的损失函数;
例如输入序列为“威尔逊医生来到加利福尼亚调查研究”,则ground true相应的标注序列为(B-PER,I-PER,E-PER,O,O,O,O,B-LOC, I-LOC,I-LOC,I-LOC,E-LOC,O,O,O,O),对于其中的“利”字, CRF不仅考虑其本身这个位置被标注为I-LOC的分数,还会考虑其上下文“加”、“福”的标注结果,若“利”被标注为I-PER,显然从“加”的B-LOC 是不可能后接一个I-PER,从数据集中学习到标签上下文关系的CRF也因此会将“利”被标注为I-PER的分数给得很低;
S45、SemiCRF层根据句中各个词的CRF特征和ground true标签计算句中各个段的SemiCRF特征,进而计算最佳路径的分数;
在本发明中,词嵌入向量中的词对应文本中的单字,段级别对应文本中的词语。同样地对于输入序列为“威尔逊医生来到加利福尼亚调查研究”, SemiCRF的段级标注序列为((1,3,PER),(4,4,O),(5,5,O),(6,6,O),(7,7,O), (8,12,LOC),(13,13,O),(14,14,O),(15,15,O),(16,16,O)),计算最佳路径的分数可根据以下公式:
Figure RE-GDA0002552921300000071
Figure RE-GDA0002552921300000072
Figure RE-GDA0002552921300000081
其中,s表示段级标注序列,w表示的是输入序列的词嵌入向量表示, li表示的是第i个段级标签,bi和ei分别表示第i个段级标签的开头和结尾在输入序列上的对应位置,mi是第i个段本身的分数,bi,j表示的是从类别 i到类别j的段级转移分数,yk是输入序列第k个字的ground true标签,
Figure RE-GDA0002552921300000082
是与标签yk相关的一个权重参数向量。w′k表示的是第k个词的特征向量,其构建方式为:
Figure RE-GDA0002552921300000083
其中,
Figure RE-GDA0002552921300000084
是组成段的各个词在段内的索引所对应的嵌入向量;
S46、SemiCRF层采用forward算法通过SemiCRF特征转移矩阵计算出所有路径的分数;
S47、根据最佳路径分数和所有路径分数计算SemiCRF层的损失函数;
损失函数中需要对分数
Figure RE-GDA0002552921300000085
作负对数似然处理,所以表示为Loss=scoreall_path-scorebest_path
S48、采用SGD(随机梯度下降法)用CRF层的损失函数与SemiCRF 层的损失函数的加权和来更新整个命名实体识别模型的参数,所述参数包括BERT语言模型、LSTM神经网络、CRF与SemiCRF联合模块在内的模型参数。加权的权重需要用控制变量法得出最佳的权重比,加权的权重会因为命名实体识别的训练数据的不同而有所变化。
S5、使用步骤S4训练完成得到的完整命名实体识别模型,对中文文本进行命名实体识别,包括步骤:
S51、将需要命名实体识别的语句输入到训练完成的完整命名实体识别模型;
S52、输入的序列在经过预训练好的BERT语言模型后依次通过双向 LSTM神经网络和CRF与SemiCRF联合模块,计算输入语句每个词的CRF 特征,进而计算CRF层的CRF特征矩阵和SemiCRF层的SemiCRF特征矩阵;
S53、使用viterbi算法分别在CRF层与SemiCRF层解码出输入语句的最佳路径,即得到了CRF层标签序列以及CRF层标签序列在CRF层上的分数scoreC-C和SemiCRF层标签序列以及SemiCRF层标签序列在SemiCRF 层上的分数scoreS-S
S54、计算步骤S53中CRF层解码所得的标签序列在SemiCRF层中的分数scoreC-S,以及计算步骤S53中SemiCRF层解码所得的标签序列在CRF 层中的分数scoreS-C
S55、分别计算步骤S53得到的两条标签序列的总分scoreC-C+ scoreC-S、scoreS-S+scoreS-C,由于分数的计算经过负对数似然处理,因此取分数最小的那条标签序列作为命名实体识别的结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (7)

1.一种基于BERT与SemiCRF的中文命名实体识别方法,其特征在于,构建命名实体识别模型,所述模型包括BERT语言模型、双向LSTM以及CRF与SemiCRF联合模块,所述方法包括步骤:
获取预训练好的BERT模型;
对命名实体识别的原始语料数据进行预处理,构建命名实体识别的训练集;
将构建的命名实体识别的训练集数据输入到预训练好的BERT语言模型;
将BERT语言模型的输出依次输入到双向LSTM神经网络以及CRF与SemiCRF联合模块中,对双向LSTM神经网络及联合模块进行多次迭代训练;
使用训练完成得到的完整命名实体识别模型,对中文文本进行命名实体识别。
2.根据权利要求1所述的方法,其特征在于,预训练好的BERT模型的获取方式包括:下载谷歌开源的BERT源码,使用BERT源码在海量的无标签中文文本语料上自行预训练出BERT预训练语言模型;或者直接下载谷歌官方预训练好的中文BERT语言模型chinese_L-12_H-768_A-12。
3.根据权利要求1所述的方法,其特征在于,所述对命名实体识别的原始语料数据进行预处理,构建命名实体识别的训练集的步骤中,包括:
对于命名实体识别原始语料进行常规数据预处理;
根据实际的应用需求确定所要识别的实体类型,或者直接使用通用的实体类型;
采用BIOES的实体标注方法对原始语料进行标注;
根据实际的应用需求制定特定的标注规则,结合上述的标注规则,对于未标注过的原始语料进行人工标注,或对于已标注过的原始语料进行标注的转换和修正。
4.根据权利要求1所述的方法,其特征在于,所述将BERT语言模型的输出依次输入到双向LSTM神经网络以及CRF与SemiCRF联合模块中,对双向LSTM神经网络及联合模块进行多次迭代训练的步骤中,包括:
将BERT语言模型输出的序列输入到双向LSTM神经网络;
双向LSTM神经网络输出该序列中每个词被标注成所有实体类型的概率分布向量,即每个词在字级别的CRF特征;
将得到的CRF特征序列分别输入到CRF与SemiCRF联合模块中的CRF层和SemiCRF层;
CRF层采用bi-LSTM+CRF方法计算出CRF层的损失函数;
SemiCRF层根据句中各个词的CRF特征和ground true标签计算句中各个段的SemiCRF特征,进而计算最佳路径的分数;
SemiCRF层采用forward算法通过SemiCRF特征转移矩阵计算出所有路径的分数;
根据最佳路径分数和所有路径分数计算SemiCRF层的损失函数;
采用SGD用CRF层的损失函数与SemiCRF层的损失函数的加权和来更新命名实体识别模型的参数。
5.根据权利要求4所述的方法,其特征在于,所述SemiCRF层根据句中各个词的CRF特征和ground true标签计算句中各个段的SemiCRF特征,进而计算最佳路径的分数的步骤中,最佳路径分数的计算方法为:
Figure FDA0002443552190000021
Figure FDA0002443552190000022
Figure FDA0002443552190000023
其中,s表示段级标注序列,w表示的是输入序列的词嵌入向量表示,li表示的是第i个段级标签,bi和ei分别表示第i个段级标签的开头和结尾在输入序列上的对应位置,mi是第i个段本身的分数,bi,j表示的是从类别i到类别j的段级转移分数,yk是输入序列第k个字的ground true标签,
Figure FDA0002443552190000034
是与标签yk相关的一个权重参数向量。w′k表示的是第k个词的特征向量,其构建方式为:
Figure FDA0002443552190000031
其中,
Figure FDA0002443552190000032
是组成段的各个词在段内的索引所对应的嵌入向量。
6.根据权利要求4所述的方法,其特征在于,所述根据最佳路径分数和所有路径分数计算SemiCRF层的损失函数的步骤中,损失函数中需要对分数
Figure FDA0002443552190000033
作负对数似然处理,所以损失函数最终表示为Loss=scoreall_path-scorebest_path
7.根据权利要求1所述的方法,其特征在于,所述使用训练完成得到的完整命名实体识别模型,对中文文本进行命名实体识别的步骤中,包括:
将需要命名实体识别的语句输入到训练完成的完整命名实体识别模型;
输入的序列在经过预训练好的BERT语言模型后依次通过双向LSTM神经网络和CRF与SemiCRF联合模块,计算输入语句每个词的CRF特征,进而计算CRF层的CRF特征矩阵和SemiCRF层的SemiCRF特征矩阵;
使用viterbi算法分别在CRF层与SemiCRF层解码出输入语句的最佳路径,即得到了CRF层标签序列以及CRF层标签序列在CRF层上的分数scoreC-C和SemiCRF层标签序列以及SemiCRF层标签序列在SemiCRF层上的分数scoreS-S
计算CRF层解码所得的标签序列在SemiCRF层中的分数scoreC-S,以及计算SemiCRF层解码所得的标签序列在CRF层中的分数scoreS-C
分别计算CRF层标签序列的总分scoreC-C+scoreC-S以及SemiCRF层标签序列的总分scoreS-S+scoreS-C,由于分数的计算经过负对数似然处理,因此取分数最小的那条标签序列作为命名实体识别的结果。
CN202010272320.8A 2020-04-09 2020-04-09 一种基于BERT与SemiCRF的中文命名实体识别方法 Pending CN111563383A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010272320.8A CN111563383A (zh) 2020-04-09 2020-04-09 一种基于BERT与SemiCRF的中文命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010272320.8A CN111563383A (zh) 2020-04-09 2020-04-09 一种基于BERT与SemiCRF的中文命名实体识别方法

Publications (1)

Publication Number Publication Date
CN111563383A true CN111563383A (zh) 2020-08-21

Family

ID=72073004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010272320.8A Pending CN111563383A (zh) 2020-04-09 2020-04-09 一种基于BERT与SemiCRF的中文命名实体识别方法

Country Status (1)

Country Link
CN (1) CN111563383A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967266A (zh) * 2020-09-09 2020-11-20 中国人民解放军国防科技大学 中文命名实体识别模型及其构建方法和应用
CN112115238A (zh) * 2020-10-29 2020-12-22 电子科技大学 一种基于bert和知识库的问答方法和系统
CN112347253A (zh) * 2020-11-04 2021-02-09 新智数字科技有限公司 一种文本信息识别模型的建立方法、装置及终端设备
CN112699682A (zh) * 2020-12-11 2021-04-23 山东大学 一种基于可组合弱认证器的命名实体识别方法和装置
CN112733533A (zh) * 2020-12-31 2021-04-30 浙大城市学院 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
CN112836046A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种四险一金领域政策法规文本实体识别方法
CN112949310A (zh) * 2021-03-01 2021-06-11 创新奇智(上海)科技有限公司 一种模型训练方法、中医药名识别方法、装置及网络模型
CN113011141A (zh) * 2021-03-17 2021-06-22 平安科技(深圳)有限公司 佛经注解模型训练方法、佛经注解生成方法及相关设备
CN113127060A (zh) * 2021-04-09 2021-07-16 中通服软件科技有限公司 一种基于自然语言预训练模型(bert)的软件功能点识别方法
CN113158671A (zh) * 2021-03-25 2021-07-23 胡明昊 一种结合命名实体识别的开放域信息抽取方法
CN113344098A (zh) * 2021-06-22 2021-09-03 北京三快在线科技有限公司 一种模型训练方法及装置
CN113468889A (zh) * 2021-06-29 2021-10-01 上海犀语科技有限公司 一种基于bert预训练模型信息提取的方法和装置
CN113673248A (zh) * 2021-08-23 2021-11-19 中国人民解放军32801部队 试验鉴定小样本文本的命名实体识别方法
CN113722476A (zh) * 2021-07-30 2021-11-30 的卢技术有限公司 一种基于深度学习的简历信息提取方法及系统
CN113761891A (zh) * 2021-08-31 2021-12-07 国网冀北电力有限公司 电网文本数据实体识别方法、系统、设备及介质
CN113779992A (zh) * 2021-07-19 2021-12-10 西安理工大学 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法
CN113849597A (zh) * 2021-08-31 2021-12-28 艾迪恩(山东)科技有限公司 基于命名实体识别的违法广告词检测方法
WO2022048210A1 (zh) * 2020-09-03 2022-03-10 平安科技(深圳)有限公司 命名实体识别方法、装置、电子设备及可读存储介质
CN114580422A (zh) * 2022-03-14 2022-06-03 昆明理工大学 一种结合近邻分析的两阶段分类的命名实体识别方法
CN114925695A (zh) * 2022-05-19 2022-08-19 西安建筑科技大学 一种命名实体识别方法、系统、设备及存储介质
CN115221882A (zh) * 2022-07-28 2022-10-21 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及介质
CN115713083A (zh) * 2022-11-23 2023-02-24 重庆邮电大学 一种中医药文本关键信息的智能抽取方法
CN116204610A (zh) * 2023-04-28 2023-06-02 深圳市前海数据服务有限公司 一种基于可研报告命名实体识别的数据挖掘方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879831A (zh) * 2019-10-12 2020-03-13 杭州师范大学 基于实体识别技术的中医药语句分词方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110879831A (zh) * 2019-10-12 2020-03-13 杭州师范大学 基于实体识别技术的中医药语句分词方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHI-XIU YE ET AL.: "hybrid semi-Markov CRF for Neural Sequence Labeling", 《PROCEEDINGS OF THE 56TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS 》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022048210A1 (zh) * 2020-09-03 2022-03-10 平安科技(深圳)有限公司 命名实体识别方法、装置、电子设备及可读存储介质
CN111967266A (zh) * 2020-09-09 2020-11-20 中国人民解放军国防科技大学 中文命名实体识别模型及其构建方法和应用
CN111967266B (zh) * 2020-09-09 2024-01-26 中国人民解放军国防科技大学 中文命名实体识别系统、模型构建方法和应用及相关设备
CN112115238B (zh) * 2020-10-29 2022-11-15 电子科技大学 一种基于bert和知识库的问答方法和系统
CN112115238A (zh) * 2020-10-29 2020-12-22 电子科技大学 一种基于bert和知识库的问答方法和系统
CN112347253A (zh) * 2020-11-04 2021-02-09 新智数字科技有限公司 一种文本信息识别模型的建立方法、装置及终端设备
CN112347253B (zh) * 2020-11-04 2023-09-08 新奥新智科技有限公司 一种文本信息识别模型的建立方法、装置及终端设备
CN112699682A (zh) * 2020-12-11 2021-04-23 山东大学 一种基于可组合弱认证器的命名实体识别方法和装置
CN112733533A (zh) * 2020-12-31 2021-04-30 浙大城市学院 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
CN112733533B (zh) * 2020-12-31 2023-11-07 浙大城市学院 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
CN112836046A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种四险一金领域政策法规文本实体识别方法
CN112949310A (zh) * 2021-03-01 2021-06-11 创新奇智(上海)科技有限公司 一种模型训练方法、中医药名识别方法、装置及网络模型
CN113011141A (zh) * 2021-03-17 2021-06-22 平安科技(深圳)有限公司 佛经注解模型训练方法、佛经注解生成方法及相关设备
CN113158671A (zh) * 2021-03-25 2021-07-23 胡明昊 一种结合命名实体识别的开放域信息抽取方法
CN113158671B (zh) * 2021-03-25 2023-08-11 胡明昊 一种结合命名实体识别的开放域信息抽取方法
CN113127060A (zh) * 2021-04-09 2021-07-16 中通服软件科技有限公司 一种基于自然语言预训练模型(bert)的软件功能点识别方法
CN113344098A (zh) * 2021-06-22 2021-09-03 北京三快在线科技有限公司 一种模型训练方法及装置
CN113468889A (zh) * 2021-06-29 2021-10-01 上海犀语科技有限公司 一种基于bert预训练模型信息提取的方法和装置
CN113779992A (zh) * 2021-07-19 2021-12-10 西安理工大学 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法
CN113722476A (zh) * 2021-07-30 2021-11-30 的卢技术有限公司 一种基于深度学习的简历信息提取方法及系统
CN113673248B (zh) * 2021-08-23 2022-02-01 中国人民解放军32801部队 试验鉴定小样本文本的命名实体识别方法
CN113673248A (zh) * 2021-08-23 2021-11-19 中国人民解放军32801部队 试验鉴定小样本文本的命名实体识别方法
CN113849597A (zh) * 2021-08-31 2021-12-28 艾迪恩(山东)科技有限公司 基于命名实体识别的违法广告词检测方法
CN113761891A (zh) * 2021-08-31 2021-12-07 国网冀北电力有限公司 电网文本数据实体识别方法、系统、设备及介质
CN113849597B (zh) * 2021-08-31 2024-04-30 艾迪恩(山东)科技有限公司 基于命名实体识别的违法广告词检测方法
CN114580422A (zh) * 2022-03-14 2022-06-03 昆明理工大学 一种结合近邻分析的两阶段分类的命名实体识别方法
CN114925695A (zh) * 2022-05-19 2022-08-19 西安建筑科技大学 一种命名实体识别方法、系统、设备及存储介质
CN115221882B (zh) * 2022-07-28 2023-06-20 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及介质
CN115221882A (zh) * 2022-07-28 2022-10-21 平安科技(深圳)有限公司 命名实体识别方法、装置、设备及介质
CN115713083A (zh) * 2022-11-23 2023-02-24 重庆邮电大学 一种中医药文本关键信息的智能抽取方法
CN115713083B (zh) * 2022-11-23 2023-12-15 北京约来健康科技有限公司 一种中医药文本关键信息的智能抽取方法
CN116204610A (zh) * 2023-04-28 2023-06-02 深圳市前海数据服务有限公司 一种基于可研报告命名实体识别的数据挖掘方法及装置

Similar Documents

Publication Publication Date Title
CN111563383A (zh) 一种基于BERT与SemiCRF的中文命名实体识别方法
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN109918666B (zh) 一种基于神经网络的中文标点符号添加方法
CN109635279B (zh) 一种基于神经网络的中文命名实体识别方法
CN109753660B (zh) 一种基于lstm的中标网页命名实体抽取方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN110232192A (zh) 电力术语命名实体识别方法及装置
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN107203511A (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN110555084B (zh) 基于pcnn和多层注意力的远程监督关系分类方法
CN108932226A (zh) 一种对无标点文本添加标点符号的方法
CN111460824B (zh) 一种基于对抗迁移学习的无标注命名实体识别方法
CN111008526A (zh) 一种基于双通道神经网络的命名实体识别方法
CN110569506A (zh) 一种基于医疗词典的医疗命名实体识别方法
CN108563725A (zh) 一种中文症状体征构成识别方法
CN111444704B (zh) 基于深度神经网络的网络安全关键词抽取方法
CN112364623A (zh) 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
CN110837736B (zh) 一种基于字结构的中文医疗记录的命名实体识别方法
CN110991185A (zh) 一种文章中实体的属性抽取方法及装置
CN114153971A (zh) 一种含错中文文本纠错识别分类设备
CN115510864A (zh) 一种融合领域词典的中文农作物病虫害命名实体识别方法
Du et al. Named entity recognition method with word position
CN112528003B (zh) 一种基于语义排序和知识修正的多项选择问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200821

RJ01 Rejection of invention patent application after publication