CN111626056B

CN111626056B - 基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置

Info

Publication number: CN111626056B
Application number: CN202010281724.3A
Authority: CN
Inventors: 李邵梅; 胡新棒; 黄瑞阳; 李辉; 胡楠; 郑洪浩
Original assignee: Information Engineering University of PLA Strategic Support Force
Current assignee: Information Engineering University of the Chinese People's Liberation Army Cyberspace Force
Priority date: 2020-04-11
Filing date: 2020-04-11
Publication date: 2023-04-07
Anticipated expiration: 2040-04-11
Also published as: CN111626056A

Abstract

本发明属于命名实体识别技术领域，特别涉及一种基于RoBERTa‑BiGRU‑LAN模型的中文命名实体识别方法及装置，该方法包括将待处理中文语料转换为字向量序列；将获得的字向量序列输入RoBERTa‑BiGRU‑LAN模型的第一层BiGRU‑LAN，获取融合局部信息的编码序列；将上面获得的编码序列输入RoBERTa‑BiGRU‑LAN模型的第二层BiGRU‑LAN，获取融合全局信息的注意力分布；根据上面获得的注意力分布得到命名实体识别结果。本发明改进字嵌入方法更好地进行中文表征，同时将BiLSTM‑CRF改进为BiGRU‑LAN，减少了模型的参数，降低模型复杂度，节省了训练时间。

Description

基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置

技术领域

本发明属于命名实体识别技术领域，特别涉及一种基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置。

背景技术

实体是文本中承载语义信息的重要组成部分，是知识图谱的核心单元。而命名实体识别(NER)旨在从文本中抽取出这些有价值的实体(人名、地名、机构名、专有名词、事件等)信息，以满足各行业需求。命名实体识别是自然语言处理领域中关键的步骤之一，是构建知识图谱的重要基础，也是智能搜索、智能问答等领域的核心技术之一，命名实体识别研究的突破对完成知识指导的机器学习任务、实现知识支撑的人工智能具有重要意义。

现在的中文命名实体识别方法广泛采用基于word2vec-BiLSTM-CRF或BERT-BiLSTM-CRF的深度学习模型。首先，模型接收中文语料，经由word2vec/BERT模型获得字向量序列；而后，将该字向量序列输入BiLSTM层获取上下文隐藏信息，得到最终的编码；最后将编码送入CRF层获得命名实体识别结果。但此类方法存在以下弊端：

(1)word2vec模型为静态词向量模型，无法解决一词多义、一字多义的问题，不同词义的区别给最后的命名实体识别效果带来干扰。

(2)当使用传统Bert模型进行字嵌入时，因为使用静态masking、训练数据集较小、训练时间不足，表征学习不充分；另一方面，使用bert的模型优化速率和模型性能较弱。

(3)相比传统RNN，BiLSTM模型参数太多，模型复杂度较高。

(4)CRF未在序列中加入其它附加信息，且运算复杂度高。

发明内容

为了解决现有技术中存在的问题，本发明的目的是提供一种基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置，改进字嵌入方法更好地进行中文表征，同时将BiLSTM-CRF改进为BiGRU-LAN，减少了模型的参数，降低模型复杂度，节省了训练时间。

为解决上述技术问题，本发明采用以下的技术方案：

本发明提供了一种基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法，包含以下步骤：

步骤1，将待处理中文语料转换为字向量序列；

步骤2，将获得的字向量序列输入RoBERTa-BiGRU-LAN模型的第一层BiGRU-LAN，获取融合局部信息的编码序列；

步骤3，将步骤2中获得的编码序列输入RoBERTa-BiGRU-LAN模型的第二层BiGRU-LAN，获取融合全局信息的注意力分布；

步骤4，根据步骤3获得的注意力分布得到命名实体识别结果。

进一步地，使用RoBERTa模型对待处理中文语料进行编码，得到对应的字向量序列x₁，...，x_n。

进一步地，在第一层BiGRU-LAN中，由BiGRU模型得到输入字向量序列对应的隐状态，然后使用多头注意力机制计算出不同标签序列下隐状态的注意力。

进一步地，所述步骤2的具体实现过程如下：

步骤2.1，由BiGRU模型计算输入字向量序列x₁，...，x_n对应的隐状态

其中n为输入中文语料的字数；

利用门控循环单元计算隐状态如下：

r_t＝σ(W_r·[h_t-1，x_t])

z_t＝σ(W_z·[h_t-1，x_t])

其中，x_t为t时刻输入向量，r_t为重置门，控制信息丢失，z_t为更新门，控制信息流入下一时刻，

为候选隐藏层，h_t为当前时刻隐藏状态也是输出向量，σ为sigmod函数，·为点积，tanh为激活函数，*为向量元素乘积，W_r，W_z，

为可学习的网络参数，h_t-1为上一时刻隐藏状态；

步骤2.2，在LAN层使用多头注意力机制计算不同标签序列下隐状态

的注意力分布

计算过程如下：

其中，

其中，

为一个标签向量，|L|为所有候选标签向量个数，d_h为隐藏层

的维度，W^Q，W^K为训练过程中学习的参数；

步骤2.3，根据步骤2.2中获得的注意力分布

计算标签序列的注意力H^l，该注意力融合了隐状态H^w的信息，计算过程如下：

H^l＝α¹v＝Multihead(Q，K，V)＝W^o[head₁；head₂；…；head_n]

其中，W^O，

为训练过程中学到的参数，head_i为不同的注意力结果。

进一步地，所述步骤3的具体实现过程如下：

步骤3.1，将步骤2.1获得的隐状态H^w和步骤2.3获得的隐状态的注意力H^l进行拼接，送入第二层BIGRU-LAN中BiGRU模型得到隐状态

步骤3.2，在LAN层使用多头注意力机制计算不同标签序列下隐状态

的注意力分布

进一步地，使用硬性注意力选取步骤3中的注意力分布最高概率作为命名实体识别结果。

进一步地，在步骤4之后，还包括RoBERTa-BiGRU-LAN模型的训练和超参数的调整。

进一步地，将训练数据集的数据作为RoBERTa-BiGRU-LAN模型的输入，然后采用梯度下降法训练该模型的参数。

本发明还提出了一种基于RoBERTa-BiGRU-LAN模型的中文命名实体识别装置，包括：

字向量序列获取模块，用于将待处理中文语料转换为字向量序列；

融合局部信息的编码序列获取模块，用于将获得的字向量序列输入RoBERTa-BiGRU-LAN模型的第一层BiGRU-LAN，获取融合局部信息的编码序列；

融合全局信息的注意力分布获取模块，用于将获得的编码序列输入RoBERTa-BiGRU-LAN模型的第二层BiGRU-LAN，获取融合全局信息的注意力分布；

命名实体识别结果获取模块，用于根据获得的注意力分布得到命名实体识别结果。

与现有技术相比，本发明具有以下优点：

本发明的基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法及装置，通过RoBERTa模型增强字的语义表示，根据字的上下文动态生成语义向量，有效表征了字的多义性，提高了中文命名实体识别的精度。与使用BERT进行词嵌入模型相比，使用全词masking、增加数据集、训练时间的方式，可以更好的进行中文表征学习。此外，使用BiGRU模型替代BiLSTM模型，使用LAN替代CRF，极大减少了模型参数，加快了模型收敛速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法的流程图；

图2是本发明实施例RoBERTa-BiGRU-LAN模型结构示意图；

图3是本发明实施例基于RoBERTa-BiGRU-LAN模型的中文命名实体识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本实施例的基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法，包含以下步骤：

步骤S1，获取标注语料，构建训练数据集；具体包括以下内容：

步骤S11，将原始句子使用分词工具进行分词；

步骤S12，使用BIO标记的方法对命名实体识别训练语料进行人工标注。其中，如果一个字符是一个实体词的开始，标记为(B-PER、B-ORG、…)；如果是实体词的非开始字符，标记为(I-PER、I-ORG、…)；如果该字符不属于任何实体，则标注为(O)。例如“我生活在中国。”，其标注结果为：“我B-PER、生O、活O、在O、中B-LOC、国I-LOC”；

步骤S2，根据RoBERTa-wwm-ext-large预训练模型和步骤S1预处理后的标注语料构建基于RoBERTa-BiGRU-LAN的中文命名实体识别模型，模型如图2所示：

步骤S21，使用RoBERTa模型对步骤S12中标记数据进行编码，得到对应的字向量序列x₁，...，x_n，其中RoBERTa模型与RoBERTa-wwm-ext-large中文预训练模型一致，并使用训练数据进行微调，，极大减少了训练时间。

步骤S22，使用BiGRU模型在步骤上S21生成的字向量序列x₁，...，x_n中融入上下文信息，得到隐状态

其中n为输入中文语料的字数。门控循环单元(GRU)是在LSTM基础上改进的循环神经网络单元，任一GRU单元计算如下：

r_t＝σ(W_r·[h_t-1，x_t])

z_t＝σ(W_z·[h_t-1，x_t])

为可学习的网络参数，h_t-1为上一时刻隐藏状态。

步骤S23，LAN(label attention network)为标签注意网络，在LAN层使用多头注意力机制计算不同标签序列x^l下隐状态

的注意力分布

LAN层计算过程如下：

其中，

其中，

为一个标签向量，|L|为所有候选标签向量个数，d_h为隐藏层

的维度，W^Q，W^K为训练过程中学习的参数。

步骤S24，根据步骤S23中所得到的标签序列的注意力分布

H^l＝α¹V＝Multihead(Q，K，V)＝W^o[head₁；head₂；…；head_n]

其中，W^O，

为训练过程中学到的参数，head_i为不同的注意力结果。

步骤S25，将步骤S22获得的隐状态H^w和步骤S24获得的隐状态的注意力H^l进行拼接。

步骤S26，操作同步骤S22，获取全局信息，得到隐状态

步骤S27，操作同步骤S23，获取注意力分布α²；

其中，

为预测标签；n为输入中文语料的字数，|L|为所有候选标签向量个数。

步骤S28，使用硬性注意力选取步骤S27中注意力分布最高概率作为序列标注结果，计算如下：

其中

为预测标签；i为字在句子中的位置，j为在标签向量的位置。

步骤S3，RoBERTa-BiGRU-LAN模型的训练和超参数的调整；

使用交叉熵函数作为损失函数，对于输入中文语句，损失函数为：

其中y为真实标签，

本实施例训练RoBERTa-BiGRU-LAN模型参数时，将训练数据集数据作为模型的输入，然后采用SGD(梯度下降法)或其他优化方法训练该模型的参数，训练中只更新BiGRU层和LAN层的参数，保持RoBERTa参数不变，当模型产生的损失值满足设定要求或者达到最大迭代次数N时，则终止该模型的训练。

步骤S4，利用步骤S3训练好的RoBERTa-BiGRU-LAN模型对待识别中文语料进行处理，得到命名实体识别结果。具体是：

将待识别中文语料输入到RoBERTa-BiGRU-LAN模型中，采用硬性注意力选取注意力分布最高概率作为序列标注结果，并将其作为最终命名实体识别结果。

本发明能够更精确的对文本中命名实体进行标注，为一些下游工作，比如：知识图谱、问答系统、信息检索、机器翻译等，提供了一个良好的基础。本发明通过RoBERTa模型增强字的语义表示，根据字的上下文动态生成语义向量，有效表征了字的多义性，提高了中文命名实体识别的精度，使用BiGRU替代BiLSTM模型，使用LAN替代CRF，极大减少了模型的参数，降低了模型复杂度，加快了模型收敛速度。

与上述基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法相应地，如图3所示，本实施例还提供了一种基于RoBERTa-BiGRU-LAN模型的中文命名实体识别装置，包括：

字向量序列获取模块31，用于将待处理中文语料转换为字向量序列；

融合局部信息的编码序列获取模块32，用于将获得的字向量序列输入RoBERTa-BiGRU-LAN模型的第一层BiGRU-LAN，获取融合局部信息的编码序列；

融合全局信息的注意力分布获取模块33，用于将获得的编码序列输入RoBERTa-BiGRU-LAN模型的第二层BiGRU-LAN，获取融合全局信息的注意力分布；

命名实体识别结果获取模块34，用于根据获得的注意力分布得到命名实体识别结果。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法，其特征在于，包含以下步骤：

步骤1，将待处理中文语料转换为字向量序列；

步骤2，将获得的字向量序列输入RoBERTa-BiGRU-LAN模型的第一层BiGRU-LAN，获取融合局部信息的编码序列，具体包括：

其中n为输入中文语料的字数；

利用门控循环单元计算隐状态如下：

r_t＝σ(W_r·[h_t-1，x_t])

z_t＝σ(W_z·[h_t-1，x_t])

为候选隐藏层，h_t为当前时刻隐藏状态也是输出向量，σ为sigmod函数，为点积，tanh为激活函数，*为向量元素乘积，W_r，W_z，

为可学习的网络参数，h_t-1为上一时刻隐藏状态；

的注意力分布

计算过程如下：

其中，

其中，

为一个标签向量，|L|为所有候选标签向量个数，d_h为隐藏层

的维度，W^Q，W^K为训练过程中学习的参数；

步骤2.3，根据步骤2.2中获得的注意力分布

H^l＝α¹V＝Multihead(Q，K，V)＝W^°[head_l；head₂；...；head_n]

其中，W^O

为训练过程中学到的参数，head_i为不同的注意力结果；

步骤3，将步骤2中获得的编码序列输入RoBERTa-BiGRU-LAN模型的第二层BiGRU-LAN，获取融合全局信息的注意力分布，具体包括：

的注意力分布

2.根据权利要求1所述的基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法，其特征在于，使用RoBERTa模型对待处理中文语料进行编码，得到对应的字向量序列x₁，...，x_n。

3.根据权利要求2所述的基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法，其特征在于，在第一层BiGRU-LAN中，由BiGRU模型得到输入字向量序列对应的隐状态，然后使用多头注意力机制计算出不同标签序列下隐状态的注意力。

4.根据权利要求1所述的基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法，其特征在于，使用硬性注意力选取步骤3中的注意力分布最高概率作为命名实体识别结果。

5.根据权利要求1至4任意一项所述的基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法，其特征在于，在步骤4之后，还包括RoBERTa-BiGRU-LAN模型的训练和超参数的调整。

6.根据权利要求5所述的基于RoBERTa-BiGRU-LAN模型的中文命名实体识别方法，其特征在于，将训练数据集的数据作为RoBERTa-BiGRU-LAN模型的输入，然后采用梯度下降法训练该模型的参数。

7.一种基于RoBERTa-BiGRU-LAN模型的中文命名实体识别装置，其特征在于，包括：

融合局部信息的编码序列获取模块，用于将获得的字向量序列输入RoBERTa-BiGRU-LAN模型的第一层BiGRU-LAN，获取融合局部信息的编码序列，具体包括：

其中n为输入中文语料的字数；

利用门控循环单元计算隐状态如下：

r_t＝σ(W_r·[h_t-1，x_t])

z_t＝σ(W_z·[h_t-1，x_t])

为可学习的网络参数，h_t-1为上一时刻隐藏状态；

的注意力分布

计算过程如下：

其中，

其中，

为一个标签向量，|L|为所有候选标签向量个数，d_h为隐藏层

的维度，W^Q，Q^K为训练过程中学习的参数；

步骤2.3，根据步骤2.2中获得的注意力分布

H^l＝α¹V＝Multihead(Q，K，V)＝W^°[head₁；head₂；...；head_n]

其中，W^O，

为训练过程中学到的参数，head_i为不同的注意力结果；

融合全局信息的注意力分布获取模块，用于将获得的编码序列输入RoBERTa-BiGRU-LAN模型的第二层BiGRU-LAN，获取融合全局信息的注意力分布，具体包括：

的注意力分布