CN111626056B - 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置 - Google Patents

基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置 Download PDF

Info

Publication number
CN111626056B
CN111626056B CN202010281724.3A CN202010281724A CN111626056B CN 111626056 B CN111626056 B CN 111626056B CN 202010281724 A CN202010281724 A CN 202010281724A CN 111626056 B CN111626056 B CN 111626056B
Authority
CN
China
Prior art keywords
bigru
lan
model
roberta
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010281724.3A
Other languages
English (en)
Other versions
CN111626056A (zh
Inventor
李邵梅
胡新棒
黄瑞阳
李辉
胡楠
郑洪浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of the Chinese People's Liberation Army Cyberspace Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202010281724.3A priority Critical patent/CN111626056B/zh
Publication of CN111626056A publication Critical patent/CN111626056A/zh
Application granted granted Critical
Publication of CN111626056B publication Critical patent/CN111626056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明属于命名实体识别技术领域,特别涉及一种基于RoBERTa‑BiGRU‑LAN模型的中文命名实体识别方法及装置,该方法包括将待处理中文语料转换为字向量序列;将获得的字向量序列输入RoBERTa‑BiGRU‑LAN模型的第一层BiGRU‑LAN,获取融合局部信息的编码序列;将上面获得的编码序列输入RoBERTa‑BiGRU‑LAN模型的第二层BiGRU‑LAN,获取融合全局信息的注意力分布;根据上面获得的注意力分布得到命名实体识别结果。本发明改进字嵌入方法更好地进行中文表征,同时将BiLSTM‑CRF改进为BiGRU‑LAN,减少了模型的参数,降低模型复杂度,节省了训练时间。

Description

基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及 装置
技术领域
本发明属于命名实体识别技术领域,特别涉及一种基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置。
背景技术
实体是文本中承载语义信息的重要组成部分,是知识图谱的核心单元。而命名实体识别(NER)旨在从文本中抽取出这些有价值的实体(人名、地名、机构名、专有名词、事件等)信息,以满足各行业需求。命名实体识别是自然语言处理领域中关键的步骤之一,是构建知识图谱的重要基础,也是智能搜索、智能问答等领域的核心技术之一,命名实体识别研究的突破对完成知识指导的机器学习任务、实现知识支撑的人工智能具有重要意义。
现在的中文命名实体识别方法广泛采用基于word2vec-BiLSTM-CRF或BERT-BiLSTM-CRF的深度学习模型。首先,模型接收中文语料,经由word2vec/BERT模型获得字向量序列;而后,将该字向量序列输入BiLSTM层获取上下文隐藏信息,得到最终的编码;最后将编码送入CRF层获得命名实体识别结果。但此类方法存在以下弊端:
(1)word2vec模型为静态词向量模型,无法解决一词多义、一字多义的问题,不同词义的区别给最后的命名实体识别效果带来干扰。
(2)当使用传统Bert模型进行字嵌入时,因为使用静态masking、训练数据集较小、训练时间不足,表征学习不充分;另一方面,使用bert的模型优化速率和模型性能较弱。
(3)相比传统RNN,BiLSTM模型参数太多,模型复杂度较高。
(4)CRF未在序列中加入其它附加信息,且运算复杂度高。
发明内容
为了解决现有技术中存在的问题,本发明的目的是提供一种基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置,改进字嵌入方法更好地进行中文表征,同时将BiLSTM-CRF改进为BiGRU-LAN,减少了模型的参数,降低模型复杂度,节省了训练时间。
为解决上述技术问题,本发明采用以下的技术方案:
本发明提供了一种基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法,包含以下步骤:
步骤1,将待处理中文语料转换为字向量序列;
步骤2,将获得的字向量序列输入RoBERTa-BiGRU-LAN模型的第一层BiGRU-LAN,获取融合局部信息的编码序列;
步骤3,将步骤2中获得的编码序列输入RoBERTa-BiGRU-LAN模型的第二层BiGRU-LAN,获取融合全局信息的注意力分布;
步骤4,根据步骤3获得的注意力分布得到命名实体识别结果。
进一步地,使用RoBERTa模型对待处理中文语料进行编码,得到对应的字向量序列x1,...,xn
进一步地,在第一层BiGRU-LAN中,由BiGRU模型得到输入字向量序列对应的隐状态,然后使用多头注意力机制计算出不同标签序列下隐状态的注意力。
进一步地,所述步骤2的具体实现过程如下:
步骤2.1,由BiGRU模型计算输入字向量序列x1,...,xn对应的隐状态
Figure BDA0002446829190000031
其中n为输入中文语料的字数;
利用门控循环单元计算隐状态如下:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
Figure BDA0002446829190000032
Figure BDA0002446829190000033
其中,xt为t时刻输入向量,rt为重置门,控制信息丢失,zt为更新门,控制信息流入下一时刻,
Figure BDA0002446829190000034
为候选隐藏层,ht为当前时刻隐藏状态也是输出向量,σ为sigmod函数,·为点积,tanh为激活函数,*为向量元素乘积,Wr,Wz
Figure BDA00024468291900000314
为可学习的网络参数,ht-1为上一时刻隐藏状态;
步骤2.2,在LAN层使用多头注意力机制计算不同标签序列下隐状态
Figure BDA0002446829190000035
的注意力分布
Figure BDA0002446829190000036
计算过程如下:
Figure BDA0002446829190000037
其中,
Figure BDA0002446829190000038
其中,
Figure BDA0002446829190000039
为一个标签向量,|L|为所有候选标签向量个数,dh为隐藏层
Figure BDA00024468291900000310
的维度,WQ,WK为训练过程中学习的参数;
步骤2.3,根据步骤2.2中获得的注意力分布
Figure BDA00024468291900000311
计算标签序列的注意力Hl,该注意力融合了隐状态Hw的信息,计算过程如下:
Hl=α1v=Multihead(Q,K,V)=Wo[head1;head2;…;headn]
Figure BDA00024468291900000312
其中,WO
Figure BDA00024468291900000313
为训练过程中学到的参数,headi为不同的注意力结果。
进一步地,所述步骤3的具体实现过程如下:
步骤3.1,将步骤2.1获得的隐状态Hw和步骤2.3获得的隐状态的注意力Hl进行拼接,送入第二层BIGRU-LAN中BiGRU模型得到隐状态
Figure BDA0002446829190000041
步骤3.2,在LAN层使用多头注意力机制计算不同标签序列下隐状态
Figure BDA0002446829190000042
的注意力分布
Figure BDA0002446829190000043
进一步地,使用硬性注意力选取步骤3中的注意力分布最高概率作为命名实体识别结果。
进一步地,在步骤4之后,还包括RoBERTa-BiGRU-LAN模型的训练和超参数的调整。
进一步地,将训练数据集的数据作为RoBERTa-BiGRU-LAN模型的输入,然后采用梯度下降法训练该模型的参数。
本发明还提出了一种基于RoBERTa-BiGRU-LAN模型的中文命名实体识别装置,包括:
字向量序列获取模块,用于将待处理中文语料转换为字向量序列;
融合局部信息的编码序列获取模块,用于将获得的字向量序列输入RoBERTa-BiGRU-LAN模型的第一层BiGRU-LAN,获取融合局部信息的编码序列;
融合全局信息的注意力分布获取模块,用于将获得的编码序列输入RoBERTa-BiGRU-LAN模型的第二层BiGRU-LAN,获取融合全局信息的注意力分布;
命名实体识别结果获取模块,用于根据获得的注意力分布得到命名实体识别结果。
与现有技术相比,本发明具有以下优点:
本发明的基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置,通过RoBERTa模型增强字的语义表示,根据字的上下文动态生成语义向量,有效表征了字的多义性,提高了中文命名实体识别的精度。与使用BERT进行词嵌入模型相比,使用全词masking、增加数据集、训练时间的方式,可以更好的进行中文表征学习。此外,使用BiGRU模型替代BiLSTM模型,使用LAN替代CRF,极大减少了模型参数,加快了模型收敛速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法的流程图;
图2是本发明实施例RoBERTa-BiGRU-LAN模型结构示意图;
图3是本发明实施例基于RoBERTa-BiGRU-LAN模型的中文命名实体识别装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例的基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法,包含以下步骤:
步骤S1,获取标注语料,构建训练数据集;具体包括以下内容:
步骤S11,将原始句子使用分词工具进行分词;
步骤S12,使用BIO标记的方法对命名实体识别训练语料进行人工标注。其中,如果一个字符是一个实体词的开始,标记为(B-PER、B-ORG、…);如果是实体词的非开始字符,标记为(I-PER、I-ORG、…);如果该字符不属于任何实体,则标注为(O)。例如“我生活在中国。”,其标注结果为:“我B-PER、生O、活O、在O、中B-LOC、国I-LOC”;
步骤S2,根据RoBERTa-wwm-ext-large预训练模型和步骤S1预处理后的标注语料构建基于RoBERTa-BiGRU-LAN的中文命名实体识别模型,模型如图2所示:
步骤S21,使用RoBERTa模型对步骤S12中标记数据进行编码,得到对应的字向量序列x1,...,xn,其中RoBERTa模型与RoBERTa-wwm-ext-large中文预训练模型一致,并使用训练数据进行微调,,极大减少了训练时间。
步骤S22,使用BiGRU模型在步骤上S21生成的字向量序列x1,...,xn中融入上下文信息,得到隐状态
Figure BDA0002446829190000061
其中n为输入中文语料的字数。门控循环单元(GRU)是在LSTM基础上改进的循环神经网络单元,任一GRU单元计算如下:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
Figure BDA0002446829190000071
Figure BDA0002446829190000072
其中,xt为t时刻输入向量,rt为重置门,控制信息丢失,zt为更新门,控制信息流入下一时刻,
Figure BDA0002446829190000073
为候选隐藏层,ht为当前时刻隐藏状态也是输出向量,σ为sigmod函数,·为点积,tanh为激活函数,*为向量元素乘积,Wr,Wz
Figure BDA0002446829190000074
为可学习的网络参数,ht-1为上一时刻隐藏状态。
步骤S23,LAN(label attention network)为标签注意网络,在LAN层使用多头注意力机制计算不同标签序列xl下隐状态
Figure BDA0002446829190000075
的注意力分布
Figure BDA0002446829190000076
LAN层计算过程如下:
Figure BDA0002446829190000077
其中,
Figure BDA0002446829190000078
其中,
Figure BDA0002446829190000079
为一个标签向量,|L|为所有候选标签向量个数,dh为隐藏层
Figure BDA00024468291900000713
的维度,WQ,WK为训练过程中学习的参数。
步骤S24,根据步骤S23中所得到的标签序列的注意力分布
Figure BDA00024468291900000710
计算标签序列的注意力Hl,该注意力融合了隐状态Hw的信息,计算过程如下:
Hl=α1V=Multihead(Q,K,V)=Wo[head1;head2;…;headn]
Figure BDA00024468291900000712
其中,WO
Figure BDA00024468291900000711
为训练过程中学到的参数,headi为不同的注意力结果。
步骤S25,将步骤S22获得的隐状态Hw和步骤S24获得的隐状态的注意力Hl进行拼接。
步骤S26,操作同步骤S22,获取全局信息,得到隐状态
Figure BDA0002446829190000081
步骤S27,操作同步骤S23,获取注意力分布α2
Figure BDA0002446829190000082
其中,
Figure BDA0002446829190000083
为预测标签;n为输入中文语料的字数,|L|为所有候选标签向量个数。
步骤S28,使用硬性注意力选取步骤S27中注意力分布最高概率作为序列标注结果,计算如下:
Figure BDA0002446829190000084
其中
Figure BDA0002446829190000085
为预测标签;i为字在句子中的位置,j为在标签向量的位置。
步骤S3,RoBERTa-BiGRU-LAN模型的训练和超参数的调整;
使用交叉熵函数作为损失函数,对于输入中文语句,损失函数为:
Figure BDA0002446829190000086
其中y为真实标签,
Figure BDA0002446829190000087
为预测标签;i为字在句子中的位置,j为在标签向量的位置。
本实施例训练RoBERTa-BiGRU-LAN模型参数时,将训练数据集数据作为模型的输入,然后采用SGD(梯度下降法)或其他优化方法训练该模型的参数,训练中只更新BiGRU层和LAN层的参数,保持RoBERTa参数不变,当模型产生的损失值满足设定要求或者达到最大迭代次数N时,则终止该模型的训练。
步骤S4,利用步骤S3训练好的RoBERTa-BiGRU-LAN模型对待识别中文语料进行处理,得到命名实体识别结果。具体是:
将待识别中文语料输入到RoBERTa-BiGRU-LAN模型中,采用硬性注意力选取注意力分布最高概率作为序列标注结果,并将其作为最终命名实体识别结果。
本发明能够更精确的对文本中命名实体进行标注,为一些下游工作,比如:知识图谱、问答系统、信息检索、机器翻译等,提供了一个良好的基础。本发明通过RoBERTa模型增强字的语义表示,根据字的上下文动态生成语义向量,有效表征了字的多义性,提高了中文命名实体识别的精度,使用BiGRU替代BiLSTM模型,使用LAN替代CRF,极大减少了模型的参数,降低了模型复杂度,加快了模型收敛速度。
与上述基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法相应地,如图3所示,本实施例还提供了一种基于RoBERTa-BiGRU-LAN模型的中文命名实体识别装置,包括:
字向量序列获取模块31,用于将待处理中文语料转换为字向量序列;
融合局部信息的编码序列获取模块32,用于将获得的字向量序列输入RoBERTa-BiGRU-LAN模型的第一层BiGRU-LAN,获取融合局部信息的编码序列;
融合全局信息的注意力分布获取模块33,用于将获得的编码序列输入RoBERTa-BiGRU-LAN模型的第二层BiGRU-LAN,获取融合全局信息的注意力分布;
命名实体识别结果获取模块34,用于根据获得的注意力分布得到命名实体识别结果。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (7)

1.一种基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法,其特征在于,包含以下步骤:
步骤1,将待处理中文语料转换为字向量序列;
步骤2,将获得的字向量序列输入RoBERTa-BiGRU-LAN模型的第一层BiGRU-LAN,获取融合局部信息的编码序列,具体包括:
步骤2.1,由BiGRU模型计算输入字向量序列x1,...,xn对应的隐状态
Figure FDA0004054214310000011
其中n为输入中文语料的字数;
利用门控循环单元计算隐状态如下:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
Figure FDA0004054214310000012
Figure FDA0004054214310000013
其中,xt为t时刻输入向量,rt为重置门,控制信息丢失,zt为更新门,控制信息流入下一时刻,
Figure FDA0004054214310000014
为候选隐藏层,ht为当前时刻隐藏状态也是输出向量,σ为sigmod函数,为点积,tanh为激活函数,*为向量元素乘积,Wr,Wz
Figure FDA00040542143100000110
为可学习的网络参数,ht-1为上一时刻隐藏状态;
步骤2.2,在LAN层使用多头注意力机制计算不同标签序列下隐状态
Figure FDA0004054214310000015
的注意力分布
Figure FDA0004054214310000016
计算过程如下:
Figure FDA0004054214310000017
其中,
Figure FDA0004054214310000018
其中,
Figure FDA0004054214310000019
为一个标签向量,|L|为所有候选标签向量个数,dh为隐藏层
Figure FDA0004054214310000021
的维度,WQ,WK为训练过程中学习的参数;
步骤2.3,根据步骤2.2中获得的注意力分布
Figure FDA0004054214310000022
计算标签序列的注意力Hl,该注意力融合了隐状态Hw的信息,计算过程如下:
Hl=α1V=Multihead(Q,K,V)=W°[headl;head2;...;headn]
Figure FDA0004054214310000023
其中,WO
Figure FDA0004054214310000024
为训练过程中学到的参数,headi为不同的注意力结果;
步骤3,将步骤2中获得的编码序列输入RoBERTa-BiGRU-LAN模型的第二层BiGRU-LAN,获取融合全局信息的注意力分布,具体包括:
步骤3.1,将步骤2.1获得的隐状态Hw和步骤2.3获得的隐状态的注意力Hl进行拼接,送入第二层BIGRU-LAN中BiGRU模型得到隐状态
Figure FDA0004054214310000025
步骤3.2,在LAN层使用多头注意力机制计算不同标签序列下隐状态
Figure FDA0004054214310000026
的注意力分布
Figure FDA0004054214310000027
步骤4,根据步骤3获得的注意力分布得到命名实体识别结果。
2.根据权利要求1所述的基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法,其特征在于,使用RoBERTa模型对待处理中文语料进行编码,得到对应的字向量序列x1,...,xn
3.根据权利要求2所述的基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法,其特征在于,在第一层BiGRU-LAN中,由BiGRU模型得到输入字向量序列对应的隐状态,然后使用多头注意力机制计算出不同标签序列下隐状态的注意力。
4.根据权利要求1所述的基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法,其特征在于,使用硬性注意力选取步骤3中的注意力分布最高概率作为命名实体识别结果。
5.根据权利要求1至4任意一项所述的基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法,其特征在于,在步骤4之后,还包括RoBERTa-BiGRU-LAN模型的训练和超参数的调整。
6.根据权利要求5所述的基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法,其特征在于,将训练数据集的数据作为RoBERTa-BiGRU-LAN模型的输入,然后采用梯度下降法训练该模型的参数。
7.一种基于RoBERTa-BiGRU-LAN模型的中文命名实体识别装置,其特征在于,包括:
字向量序列获取模块,用于将待处理中文语料转换为字向量序列;
融合局部信息的编码序列获取模块,用于将获得的字向量序列输入RoBERTa-BiGRU-LAN模型的第一层BiGRU-LAN,获取融合局部信息的编码序列,具体包括:
步骤2.1,由BiGRU模型计算输入字向量序列x1,...,xn对应的隐状态
Figure FDA0004054214310000031
其中n为输入中文语料的字数;
利用门控循环单元计算隐状态如下:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
Figure FDA0004054214310000032
Figure FDA0004054214310000033
其中,xt为t时刻输入向量,rt为重置门,控制信息丢失,zt为更新门,控制信息流入下一时刻,
Figure FDA0004054214310000041
为候选隐藏层,ht为当前时刻隐藏状态也是输出向量,σ为sigmod函数,为点积,tanh为激活函数,*为向量元素乘积,Wr,Wz
Figure FDA0004054214310000042
为可学习的网络参数,ht-1为上一时刻隐藏状态;
步骤2.2,在LAN层使用多头注意力机制计算不同标签序列下隐状态
Figure FDA0004054214310000043
的注意力分布
Figure FDA0004054214310000044
计算过程如下:
Figure FDA0004054214310000045
其中,
Figure FDA0004054214310000046
其中,
Figure FDA0004054214310000047
为一个标签向量,|L|为所有候选标签向量个数,dh为隐藏层
Figure FDA0004054214310000048
的维度,WQ,QK为训练过程中学习的参数;
步骤2.3,根据步骤2.2中获得的注意力分布
Figure FDA0004054214310000049
计算标签序列的注意力Hl,该注意力融合了隐状态Hw的信息,计算过程如下:
Hl=α1V=Multihead(Q,K,V)=W°[head1;head2;...;headn]
Figure FDA00040542143100000410
其中,WO
Figure FDA00040542143100000411
为训练过程中学到的参数,headi为不同的注意力结果;
融合全局信息的注意力分布获取模块,用于将获得的编码序列输入RoBERTa-BiGRU-LAN模型的第二层BiGRU-LAN,获取融合全局信息的注意力分布,具体包括:
步骤3.1,将步骤2.1获得的隐状态Hw和步骤2.3获得的隐状态的注意力Hl进行拼接,送入第二层BIGRU-LAN中BiGRU模型得到隐状态
Figure FDA0004054214310000051
步骤3.2,在LAN层使用多头注意力机制计算不同标签序列下隐状态
Figure FDA0004054214310000052
的注意力分布
Figure FDA0004054214310000053
命名实体识别结果获取模块,用于根据获得的注意力分布得到命名实体识别结果。
CN202010281724.3A 2020-04-11 2020-04-11 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置 Active CN111626056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010281724.3A CN111626056B (zh) 2020-04-11 2020-04-11 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010281724.3A CN111626056B (zh) 2020-04-11 2020-04-11 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置

Publications (2)

Publication Number Publication Date
CN111626056A CN111626056A (zh) 2020-09-04
CN111626056B true CN111626056B (zh) 2023-04-07

Family

ID=72272483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010281724.3A Active CN111626056B (zh) 2020-04-11 2020-04-11 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置

Country Status (1)

Country Link
CN (1) CN111626056B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111966812B (zh) * 2020-10-20 2021-01-05 中国人民解放军国防科技大学 一种基于动态词向量的自动问答方法和存储介质
CN112487820B (zh) * 2021-02-05 2021-05-25 南京邮电大学 一种中文医疗命名实体识别方法
CN113076734B (zh) * 2021-04-15 2023-01-20 云南电网有限责任公司电力科学研究院 一种项目文本的相似度检测方法及装置
CN113312914B (zh) * 2021-04-30 2024-06-14 西安理工大学 一种基于预训练模型的安全事件实体识别方法
CN113380418A (zh) * 2021-06-22 2021-09-10 浙江工业大学 一种通过对话文本分析识别抑郁症的系统
CN113342982B (zh) * 2021-06-24 2023-07-25 长三角信息智能创新研究院 融合RoBERTa和外部知识库的企业行业分类方法
CN113705218B (zh) * 2021-09-03 2023-03-21 四川大学 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
CN114036950B (zh) * 2021-11-10 2024-05-10 山东大学 一种医疗文本命名实体识别方法及系统
CN113987192B (zh) * 2021-12-28 2022-04-01 中国电子科技网络信息安全有限公司 一种基于RoBERTa-WWM和HDBSCAN算法的热点话题检测方法
CN114238644B (zh) * 2022-02-22 2022-06-07 北京澜舟科技有限公司 一种降低语义识别计算量的方法、系统及存储介质
CN115033702B (zh) * 2022-03-04 2024-06-04 贵州电网有限责任公司 一种基于集成学习的变电站选址知识抽取方法
CN115036029A (zh) * 2022-04-20 2022-09-09 天津健康医疗大数据有限公司 一种基于区域大数据平台提供医疗服务的方法
CN115858791B (zh) * 2023-02-17 2023-09-15 成都信息工程大学 短文本分类方法、装置、电子设备和存储介质
CN116151375B (zh) * 2023-04-20 2023-07-14 南京信息工程大学 一种基于反事实与路径挖掘的事件溯因推理方法
CN116341557A (zh) * 2023-05-29 2023-06-27 华北理工大学 一种糖尿病医学文本命名实体识别方法
CN116702787A (zh) * 2023-08-07 2023-09-05 四川隧唐科技股份有限公司 一种长文本实体识别方法、装置、计算机设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783960B (zh) * 2017-10-23 2021-07-23 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUL Khan Safi Qamas ; 尹继泽 ; 潘丽敏 ; 罗森林 ; .基于深度神经网络的命名实体识别方法研究.信息网络安全.2017,(10),全文. *
杨飘 ; 董文永 ; .基于BERT嵌入的中文命名实体识别方法.计算机工程.2019,(04),全文. *

Also Published As

Publication number Publication date
CN111626056A (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111626056B (zh) 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN109190131B (zh) 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN110321418B (zh) 一种基于深度学习的领域、意图识别和槽填充方法
CN109492227A (zh) 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN111695052A (zh) 标签分类方法、数据处理设备、可读存储介质
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN115034208B (zh) 一种基于bert的中文asr输出文本修复方法及系统
CN110909144A (zh) 问答对话方法、装置、电子设备及计算机可读存储介质
CN114861601B (zh) 基于旋转式编码的事件联合抽取方法及存储介质
CN117291265B (zh) 一种基于文本大数据的知识图谱构建方法
CN113408287A (zh) 实体识别方法、装置、电子设备及存储介质
CN115292463A (zh) 一种基于信息抽取的联合多意图检测和重叠槽填充的方法
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN112417132A (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN113705222B (zh) 槽识别模型训练方法及装置和槽填充方法及装置
CN118312600B (zh) 一种基于知识图谱与大语言模型的智能客服问答方法
CN118312833A (zh) 旅游资源层级多标签分类方法及系统
CN116089593B (zh) 基于时序特征筛选编码模块的多回合人机对话方法和装置
CN111199152A (zh) 一种基于标签注意力机制的命名实体识别方法
CN113792550B (zh) 预测答案的确定方法及装置、阅读理解方法及装置
CN114357166A (zh) 一种基于深度学习的文本分类方法
Aim-Nang et al. Isarn Dialect Word Segmentation using Bi-directional Gated Recurrent Unit with transfer learning approach
CN114565804A (zh) 一种nlp模型训练识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 450000 Science Avenue 62, Zhengzhou High-tech Zone, Henan Province

Patentee after: Information Engineering University of the Chinese People's Liberation Army Cyberspace Force

Country or region after: China

Address before: No. 62 Science Avenue, High tech Zone, Zhengzhou City, Henan Province

Patentee before: Information Engineering University of Strategic Support Force,PLA

Country or region before: China