CN111738003B

CN111738003B - 命名实体识别模型训练方法、命名实体识别方法和介质

Info

Publication number: CN111738003B
Application number: CN202010541415.5A
Authority: CN
Inventors: 程学旗; 郭嘉丰; 范意兴; 张儒清; 刘艺菲
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2023-06-06
Anticipated expiration: 2040-06-15
Also published as: CN111738003A

Abstract

本发明实施例提供了命名实体识别模型训练方法、命名实体识别方法和介质，本发明考虑先用源领域标记数据和目标领域未标记数据集对第一训练模型进行训练，基于第一训练模型的参数设置第二训练模型，再用目标领域标记数据集对第二训练模型进行微调，从而得到最终的命名实体识别模型，由此，避免了需要大量标记目标领域的样本用于训练的问题。

Description

命名实体识别模型训练方法、命名实体识别方法和介质

技术领域

本发明涉及自然语言处理技术领域，具体来说涉及命名实体识别技术领域，更具体地说，涉及命名实体识别模型训练方法、命名实体识别方法和介质。

背景技术

自然语言处理是为了让计算机理解人类的语言，从而更好地实现人与计算之间的交互(如语音助手、消息自动回复、翻译软件等应用与人的交互)。自然语言处理通常包括分词、词性标注、命名实体识别和语法分析等。命名实体识别(Named Entity Recognition,简称NER)是自然语言处理(Natural Language Processing，简称NLP)的一个重要组成部分。命名实体识别是指识别文本中具有特定意义的事物名称或者符号的过程，命名实体主要包括人名、地名、机构名、日期、专有名词等。许多下游NLP任务或应用程序都依赖NER进行信息提取，例如问题回答、关系提取、事件提取和实体链接等。若能更准确地识别出文本中的命名实体，有助于计算机更好地理解语言的语义、更好地执行任务，从而提高人机交互体验。

基于深度神经网络的命名实体识别方法通常将命名实体识别看做多分类任务或序列标注任务，可以分为输入的分布式表示、语义编码和标签解码三个过程，其中输入的分布式表示根据编码对象可以分为字符级别、词级别和混合三种，可以得到每个词的向量表示；语义编码通常应用深度神经网络，比如双向长短记忆神经网络，基于Transform的双向编码器表示(Bidirectional Encoder Representation from Transformers，简称BERT)以及迁移学习网络等，可以利用文本中每个词的词向量得到文本的向量表示；标签解码由分类器完成，分类器常利用全连接神经网络+Softmax层或者条件随机场+维特比算法(Viterbi算法)来得到每个词的标签。

命名实体识别当前并不是一个大热的研究方向，因为学术界部分认为这是一个已经解决了的问题。但是，也有很多研究者认为这个问题还没有得到很好地解决，原因主要是命名实体识别只是在有限的文本类型(主要是新闻语料中)和实体类别(主要是人名、地名、组织机构名)中取得了不错的效果；而在其他自然语言处理领域，命名实体评测语料较小，容易产生过拟合，通用的识别多种类型的命名实体的系统性能还很差。

基于深度学习的命名实体识别在英语新闻语料上已经达到不错的效果(F1值在90％以上)，但深度学习方法一般需要大量标注数据，在真实世界中很多语言和领域通常标记数据比较少，因此出现了低资源命名实体识别问题。迁移学习是目前解决低资源命名实体识别问题的常用方法，但目前应用于低资源命名实体识别问题的迁移学习存在数据量、标签资源不平衡问题，共同学习时会更加偏向于高资源数据(数据量更大的数据集)的问题，使得命名实体识别模型的识别效果不好。因此，有必要对现有技术进行改进。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供命名实体识别模型训练方法、命名实体识别方法和介质。

本发明的目的是通过以下技术方案实现的：

根据本发明的第一方面，提供一种命名实体识别模型训练方法，所述方法包括：A1、构建第一训练模型，所述第一训练模型包括特征提取模块、识别模块和领域区分模块；A2、对第一训练模型进行多轮训练，其中，每轮训练中，用第一数据集对识别模块进行训练、用第一数据集和第二数据集对特征提取模块和领域区分模块进行对抗训练，每轮训练后至少根据识别模块的损失函数和领域区分模块的损失函数对特征提取模块的参数进行调整，同时更新第一数据集和第二数据集，以更新后的第一数据集和第二数据集进行下一轮训练，其中，第一数据集是以单词向量形式表示的有实体标签的源领域标记数据集，第二数据集是以单词向量形式表示的无实体标签的目标领域未标记数据集；A3、构建第二训练模型，所述第二训练模型包括特征提取模块和识别模块，第二训练模型的特征提取模块的初始参数采用经步骤A2训练后的第一训练模型的特征提取模块的参数进行设置，识别模块的初始参数采用随机初始化的方式进行设置；A4、用第三数据集以监督训练的方式对由步骤A3构建的第二训练模型的特征提取模块和识别模块的进行参数微调，将经参数微调后的第二训练模型作为命名实体识别模型，其中，第三数据集是以单词向量形式表示的有实体标签的目标领域标记数据集。

优选的，所述源领域标记数据集的规模与所述目标领域未标记数据集的规模相同或者大致相同，所述目标领域标记数据集的规模小于所述目标领域未标记数据集的规模。

优选的，规模相同或者大致相同是指源领域标记数据集与目标领域未标记数据集的数据量之比为：10:14～10:9。

在本发明的一些实施例中，所述第一训练模型中的特征提取模块包括预处理层、CNN模型、Word2Vec模型、包含前向LSTM和后向LSTM的BiLSTM模型，其中，前向LSTM、后向LSTM分别包括多个依次连接的LSTM单元；该特征提取模块分别对非单词向量形式表示的源领域标记数据集、目标领域未标记数据集、目标领域标记数据集进行如下处理以获得第一数据集、第二数据集、第三数据集：用所述预处理层对数据集的单词进行包含统一大小写和去除停用词的预处理；用CNN模型提取数据集中各单词的字符级别嵌入特征；用Word2Vec模型提取数据集中各单词的单词嵌入特征；对数据集中各单词的字符级别嵌入特征和单词嵌入特征进行串联拼接，得到各单词的向量表示；将数据集中各单词的向量表示输入特征提取模块的BiLSTM模型中进行处理，得到包含上下文信息的以单词向量形式表示的数据集。

在本发明的一些实施例中，第一训练模型和第二训练模型的识别模块均包括BiLSTM-CRF模型，其中，采用源领域标记数据的实体标签设置第一训练模型中识别模块的BiLSTM-CRF模型的CRF层的标签取值空间，采用的目标领域标记数据集的实体标签设置第二训练模型的识别模块的BiLSTM-CRF模型的CRF层的标签设置。

在本发明的一些实施例中，所述第一训练模型还包括梯度反转层，对特征提取模块和领域区分模块进行对抗训练过程中，在正向传播时通过梯度反转层对第一训练模型的特征提取模块和领域区分模块执行标准随机梯度下降操作，并且在反向传播时，在将领域区分模块的损失函数返回到特征提取模块之前将梯度反转层的参数自动取反，以使特征提取模块提取源领域标记数据集和目标领域未标记数据集中单词的通用特征。

在本发明的一些实施例中，所述第一训练模型还包括自动编码模块，用第二数据集对自动编码模块进行训练，每轮训练后，根据自动编码模块的损失函数、识别模块的损失函数和领域区分模块的损失函数共同更新特征提取模块的参数。

在本发明的一些实施例中，所述自动编码模块包含编码器和解码器，其中，每轮训练中，编码器获取用特征提取模块的BiLSTM模型提取到目标领域未标记数据集的单词的前向LSTM中最后一个LSTM和后向LSTM中最后一个LSTM的隐藏状态并组合为解码器的初始状态特征，并使用该初始状态特征和其前一个单词嵌入特征作为解码器的输入以训练自动编码模块提取目标领域的私有特征。

在本发明的一些实施例中，按照以下方式对第一训练模型的特征提取模块的参数进行调整：

其中，θ_f表示本次调整后特征提取模块的参数，θ’_f表示本次调整前特征提取模块的参数，μ表示学习率，L_task表示识别模块的损失函数，L_type表示领域区分模块的损失函数，L_target表示自动编码模块的损失函数，-ω表示梯度翻转参数，α、β、γ表示用户设置的权重。

在本发明的一些实施例中，所述步骤A2还包括：在每轮训练后按照以下方式对第一训练模型的识别模块、领域区分模块和自动编码模块的参数进行调整：

识别模块对应的参数调整方式为：

领域区分模块对应的参数调整方式为：

自动编码模块对应的参数调整方式为：

其中，θ_y表示本次调整后识别模块的参数，θ’_y表示本次调整前识别模块的参数，θ_d表示本次调整后领域区分模块的参数，θ’_d表示本次调整前领域区分模块的参数，θ_r表示本次调整后自动编码模块的参数，θ’_r表示本次调整前自动编码模块的参数，μ表示学习率，α、β、γ表示用户设置的权重。

根据本发明的第二方面，提供一种基于如第一方面所述的命名实体识别模型训练方法训练得到的命名实体识别模型的命名实体识别方法，所述命名实体识别模型包括特征提取模块和识别模块，所述命名实体识别方法包括：B1、通过命名实体识别模型的特征提取模块获取待识别文本的字符级别嵌入特征和单词嵌入特征并进行串联拼接，得到待识别文本中各单词的单词向量；B2、将单词向量的形式表示的待识别文本输入命名实体识别模型的识别模块，得到所述待识别文本的命名实体识别结果。

根据本发明的第三方面，提供一种电子设备，包括：一个或多个处理器；以及存储器，其中存储器用于存储一个或多个可执行指令；所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现第一方面或者第二方面所述方法的步骤。

与现有技术相比，本发明的优点在于：

本发明考虑先用源领域标记数据和目标领域未标记数据集对第一训练模型进行训练，基于第一训练模型的参数设置第二训练模型，再用目标领域标记数据集对第二训练模型进行微调，从而得到最终的命名实体识别模型。由此，避免了需要大量标记目标领域的样本用于训练的问题，训练出的命名实体识别模型对目标领域未标记数据集中的单词进行命名实体识别时的识别效果也得到了提升。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的命名实体识别模型训练方法的简化示意图；

图2为根据本发明实施例的命名实体识别模型的结构原理示意图；

图3为根据本发明实施例的鞍点的示意图；

图4为作为本发明的基线实验的现有模型进行命名实体识别的示意图；

图5为作为本发明的对比实验的两种现有方法的示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如在背景技术部分提到的，目前的命名实体识别模型是在特定领域的经过标记(即标记出数据集中哪些字词是命名实体)的数据集上经过监督训练得到的，其能够在特定领域实现较高的识别准确性，但是如果把该模型直接应用到其他领域时，存在泛化能力较差、识别准确性不高的问题。而在真实世界中很多语言和领域通常标记数据比较少，难以通过监督训练得到该领域所需的命名实体识别模型，而如果通过人工对这些领域的数据进行标记，不仅需要负责人工标记的人员具有对各领域的各类命名实体的名称有清晰的认识，还需要其从海量的数据中准确标记出各类命名实体，其工作量大且成本高。而如果直接用规模相对较大的源领域标记数据集和规模较小的目标领域标记数据集进行迁移学习，会存在标签资源不平衡问题，导致共同学习时会更加偏向于高资源数据的问题，使训练得到的模型在目标领域的识别效果不佳。

因此，本发明考虑先用源领域标记数据和目标领域未标记数据集对第一训练模型进行训练，基于第一训练模型的参数设置第二训练模型，再用目标领域标记数据集对第二训练模型进行微调，从而得到最终的命名实体识别模型。由此，可以将目标领域数据分为目标领域未标记数据集和目标领域标记数据集两部分对模型进行训练，从而可以将目标领域未标记数据集与源领域标记数据集的规模设置为大致相同以避免最终训练的模型参数偏向数据量大的数据集；训练后用规模比目标领域未标记数据集小的目标领域标记数据集对第二训练模型进行微调，从而得到最终的命名实体识别模型，避免了需要大量标记目标领域的样本用于训练的问题。

在对本发明的实施例进行具体介绍之前，先对其中使用到的部分术语作如下解释：

对抗训练，也称对抗学习，是由Goodfellow等人提出，基本思想是基于两个模型：一个生成模型和一个判别模型。判别模型的任务是判断一张给定的图片是真实的还是经过人工修饰，生成模型的任务是模拟生成与图集中的图片相似的合成图片。在训练过程中通过反复对抗，生成模型和判别模型的能力都会不断增强，直到达成一个平衡。我们可以把这个过程看作一种零和游戏。目前对抗学习已成功用于图像生成、半监督学习以及域自适应。领域自适应对抗学习网络的关键思想是在优化特征提取模块的过程中对抗领域区分模块，来构建通用不变的特征。

迁移学习，是将已经学习到的知识迁移到另一种未知的知识的学习，即从源领域迁移到目标领域。

源领域标记数据集，是指源领域的经过实体标记而带有实体标签的数据集。换言之，源领域标记数据集中的实体对象带有其对应类型的实体标签。

目标领域未标记数据集，是指目标领域的没有经过实体标记的数据集。没有经过标记是指无需在本发明的训练过程前对其进行标记。即使收集的部分数据带有其原来他人标记的实体标签，也被视为不带有实体标签的数据集，因为这部分实体标签在对抗训练的过程中不考虑或者不会被使用。

目标领域标记数据集，是指目标领域的经过实体标记而带有实体标签的数据集。

CNN(Convolutional Neural Networks)，表示卷积神经网络，是一类包含卷积计算且具有深度结构的前馈神经网络。

Word2Vec(Word to Vector)模型，是一种将词汇向量化的自然语言处理模型。Word2Vec模型的工作原理是从大量文本语料中以无监督的方式学习词的语义信息，并输出词向量来表征词的语义信息。

LSTM(Long Short-Term Memory)，表示长短期记忆网络，是一种递归循环神经网络。LSTM的出现主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。相比于普通的循环神经网络(Recurrent Neural Network,简称RNN)，LSTM在长序列中学习长期依赖信息方面具有更好的表现。

BiLSTM(Bi-directional Long Short-Term Memory)，表示双向长短期记忆网络。

CRF(Conditional Random Fields)，表示条件随机场，是一种给定输入随机变量x，求解条件概率P(y│x)的概率无向图模型。条件随机场模型需要建模的是输入变量和输出变量的条件概率分布。条件随机场常用于标注或分析序列资料，如自然语言文字或是生物序列。用于序列标注时，输入输出随机变量为两个等长的序列。

MLP(Multilayer Perceptron)，表示多层感知机，是一种前馈人工神经网络模型，用于进行多层线性或非线性变换。

停用词，是指在处理自然语言数据(或文本)之前或之后会自动过滤掉的无明确意义的字或词。比如，语气助词、副词、介词、连接词等。去除停用词可以节省存储空间、提高处理效率。

参见图1，本发明的命名实体模型训练方法的训练过程主要包括以下几个阶段：先用规模相同或者大致相同的第一数据集和第二数据集训练第一训练模型，训练完成后将第一训练模型的知识通过迁移学习的方式传递给第二训练模型后用规模小于第二数据集的第三数据集对第二训练模型进行微调，得到命名实体识别模型。

根据本发明的一个实施例，提供一种命名实体识别模型训练方法，包括步骤A1、A2、A3、A4。为了更好地理解本发明，下面结合具体的实施例针对每一个步骤分别进行详细说明。

步骤A1：构建第一训练模型，第一训练模型包括特征提取模块11、识别模块12和领域区分模块13。

根据本发明的一个实施例，第一训练模型中的特征提取模块11包括预处理层、CNN模型、Word2Vec模型和包含前向LSTM和后向LSTM的BiLSTM模型，其中，前向LSTM、后向LSTM分别包括多个依次连接的LSTM单元；该特征提取模块11分别对非单词向量形式表示的源领域标记数据集、目标领域未标记数据集、目标领域标记数据集进行如下处理以获得第一数据集、第二数据集、第三数据集：用所述预处理层对数据集的单词进行包含统一大小写和去除停用词的预处理；用CNN模型提取数据集中各单词的字符级别嵌入特征；用Word2Vec模型提取数据集中各单词的单词嵌入特征；对数据集中各单词的字符级别嵌入特征和单词嵌入特征进行串联拼接，得到各单词的向量表示；将数据集中各单词的向量表示输入到特征提取模块11的BiLSTM模型中进行处理，得到包含上下文信息的以单词向量形式表示的数据集。简单地说，特征提取模块11可以提取源领域和目标领域共同的字符级别嵌入特征和单词嵌入特征以及包含上下文信息的单词向量。参见图2，源领域和目标领域为一些句子组成的样本，将其输入到特征提取模块11。特征提取模块11利用CNN提取字符级别嵌入特征

可以有效解决单词未出现在词典中(Out-of-vocabulary，OOV)的问题。然后将单词嵌入特征

与字符级别嵌入特征

连接起来，作为下一层BiLSTM的输入，特征提取模块11利用BiLSTM对句子进行建模，可以捕获上下文信息。将输入单词序列(样本)表示为x，将第i个单词表示为x_i。x_i∈S(x)和x_i∈T(x)表示输入样本分别来自源领域和目标域。为了后续描述方便，将特征提取模块11的参数记作θ_f，将特征提取模块11提取的包含上下文信息的单词向量表示为F(x_i)，将以单词向量形式表示的单词序列表示为F(x)。

根据本发明的一个实施例，第一训练模型的识别模块12包括BiLSTM-CRF模型。其中，采用源领域标记数据集的实体标签设置第一训练模型中识别模块12的BiLSTM-CRF模型的CRF层的标签取值空间。标签例如图2识别模块12内示出的示意性结果，B-GPE表示一种示意性的实体标签，例如为国家、城市、州这类实体，O表示非实体的标签，识别模块12用于进行命名实体识别标注。识别模块12以F(x)作为输入，使用CRF层，最大似然估计计算损失函数以及Viterbi算法将F(x)中的每个单词向量F(x_i)映射到其实体标签，CRF层的CRF算法使用特征函数来更抽象地表达特征，其中，CRF算法的目标函数为：

其中，x表示输入单词序列，y表示输出实体标签序列，θ_y为特征函数权重，Z(x)为归一化因子，i为当前单词的位置，M为输入单词序列长度，j表示特征函数的个数，θ_yj表示第j个特征函数的权重，f(x,i,y_i,y_i-1)表示特征函数，y_i为当前位置的输出实体标签，y_i-1为前一个位置的输出实体标签。该目标函数所表达的含义是：给定输入单词序列x和特征函数权重θ_y，输出标签序列y出现的条件概率，将概率最高的实体标签作为单词序列x中对应单词的实体标签y_i。

上述归一化因子Z(x)表示为：

其中，Y表示所有可能出现的输出实体标签序列的集合。

识别模块12的参数即为特征函数的权重θ_y，对参数的求解用最大似然估计，假设源领域训练集为

N_S为源领域样本个数，

表示源领域的第N_S个样本，

表示输出的源领域的第N_S个样本的实体标签序列。

用以下公式计算对数似然作为损失函数以对识别模块12进行训练：

其中，k表示当前样本的序号。

根据本发明的一个实施例，第一训练模型的领域区分模块13包括多层感知机MLP，多层感知机包括Softmax层。领域区分模块13以F(x)作为输入，是标准的前馈网络。领域区分模块13的训练目标为尽量不能对样本来自源领域和目标领域进行区分。领域区分模块13将相同的隐藏状态h映射到域标签，将该映射的参数记作θ_d。领域区分模块13旨在通过以下损失函数来识别域标签：

其中，d_k是样本k的标准域标签，

是领域区分模块13Q在样本k上的输出，

N_t表示来自目标领域的N_t个样本。通过最大化特征提取模块11F的参数θ_f上的损失的同时最小化领域区分模块13Q的参数θ_d上的损失，将领域区分模块13训练到损失函数的鞍点。鞍点就是一个维度向上倾斜且另一维度向下倾斜的点。如图3所示，鞍点通常被相同误差值的平面所包围，这使得算法陷入其中很难脱离出来，因为梯度在所有维度上接近于零。优化特征提取模块11的参数θ_f可确保领域区分模块13无法区分域，即特征提取模块11F可找到源领域和目标领域之间共同的通用特征。在训练过程中，对领域区分模块13的参数θ_d、识别模块12的参数θ_y更新后，会根据更新后的领域区分模块13的参数θ_d、识别模块12的参数θ_y对特征提取模块11F的参数θ_f进行优化，以最小化分类损失L_task，这样可以确保P(F(x_i))可以对源领域进行准确的预测。

根据本发明的一个实施例，第一训练模型还包括梯度反转层。对特征提取模块11和领域区分模块13进行对抗训练过程中，在正向传播时通过梯度反转层对第一训练模型的特征提取模块11和领域区分模块13执行标准随机梯度下降操作。在反向传播时，在将领域区分模块13的损失函数返回到特征提取模块11之前将梯度反转层的参数自动取反，以使特征提取模块11提取源领域标记数据集和目标领域未标记数据集中单词的通用特征。

根据本发明的一个实施例，再次参见图2，第一训练模型还包括自动编码模块14，用第二数据集对自动编码模块14进行训练，每轮训练后，根据自动编码模块14的损失函数、识别模块12的损失函数和领域区分模块13的损失函数共同更新特征提取模块11的参数。优选的，所述自动编码模块14包含编码器和解码器，其中，每轮训练中，编码器获取用特征提取模块11的BiLSTM模型提取到目标领域未标记数据集的单词的前向LSTM中最后一个LSTM和后向LSTM中最后一个LSTM的隐藏状态并组合为解码器的初始状态特征，并使用该初始状态特征和其前一个单词嵌入特征作为解码器的输入以训练自动编码模块14提取目标领域的私有特征。对抗学习试图将隐藏表示优化为通用表示h_common，通过对抗学习的这一优化过程得到的识别模块12的参数初始化第二训练模型的识别模块12的参数，而目标域自动编码模块14通过调整通用表示使其既包括一部分源领域和目标领域的通用特征，又包括一部分目标领域数据的领域私有特征，得到包含目标领域信息的领域特征表示，作为最终模型的特征提取模块11，抵消了对抗学习网络去除目标领域特征的趋势。换言之，自动编码模块14进行目标领域的特征学习，保留其领域特性。通过训练由特征提取模块11和领域区分模块13组成的对抗学习网络，可以获得源领域和目标领域的通用特征h_common，但是它将削弱一些对命名实体识别有用的领域特定特征，可见，仅获得领域通用特征将限制分类能力。因此，本发明通过引入目标领域的自动编码模块14来解决该缺陷，自动编码模块14试图重建目标领域数据。本发明用自动编码模块14的编码器获取特征提取模块11中的BiLSTM模型中前向LSTM和后向LSTM的最后隐藏状态组合为解码器LSTM的初始状态h₀(dec)。因此，本发明不需要颠倒输入句子(单词序列)的单词顺序，并且该模型避免了在输入和输出之间建立交流的困难。使用h₀(dec)和前一个单词嵌入特征作为解码器的输入。假设

是输出单词序列，z_i是第i个单词表示形式：z_i＝MLP(h_i)，其中MLP是多重感知机。隐藏状态h_i＝LSTM([h₀(dec):z_i-1],h_i-1)，其中[·：·]是串联操作，表示将h₀(dec)和前一个单词嵌入特征z_i-1进行串联，和前一个位置隐藏状态h_i-1一起作为LSTM的输入，输出即为当前位置隐藏状态。则在给定h₀(dec)的条件下输出单词序列

的条件概率

如以下公式所示：

其中，每个

是在词典中所有词上计算softmax概率。

本发明的目标是针对自动编码模块14的参数θ_r最小化如以下公式所示的损失函数：

其中，

是样本k的第i个词的one-hot向量。这使得h₀(dec)学习目标领域数据上不完整和最显着的句子表示形式。对抗学习网络试图将隐藏表示优化为通用表示h_common，目标域自动编码模块14通过优化通用表示为其增加目标领域数据的私有特征，抵消了对抗学习网络擦除目标领域私有特征的趋势。

步骤A2：对第一训练模型进行多轮训练，其中，每轮训练中，用第一数据集对识别模块12进行训练、用第一数据集和第二数据集对特征提取模块11和领域区分模块13进行对抗训练，每轮训练后至少根据识别模块12的损失函数和领域区分模块13的损失函数对特征提取模块11的参数进行调整，同时更新第一数据集和第二数据集，以更新后的第一数据集和第二数据集进行下一轮训练，其中，第一数据集是以单词向量形式表示的有实体标签的源领域标记数据集，第二数据集是以单词向量形式表示的无实体标签的目标领域未标记数据集。

其中，源领域标记数据集的规模与目标领域未标记数据集的规模相同或者大致相同。目标领域标记数据集的规模小于目标领域未标记数据集的规模。优选的，规模相同或者大致相同是指源领域标记数据集与目标领域未标记数据集的数据量之比为：10:14～10:9。源领域标记数据集的规模与目标领域未标记数据集的规模相同或者大致相同可以避免在对抗训练时训练的模型的参数不至于因为资源不均衡而偏向其中数据量较大的领域，使得最终的模型在目标领域上获得更好的命名实体识别的效果。

优选的，用第一数据集对识别模块12进行训练的过程包括用以单词向量表示的单词序列以及单词序列中各单词的实体标签训练识别模块12以使其能够根据单词向量识别单词所属的实体标签。

优选的，用第一数据集和第二数据集对特征提取模块11和领域区分模块13进行对抗训练的过程包括：在一轮训练时，领域区分模块13以特征提取模块11生成的包含上下文信息的单词序列F(x)为输入，训练领域区分模块13输出单词序列是来自源领域还是目标领域的分类结果；在反向传播过程中，至少根据前一步训练得到的领域区分模块13的损失函数对特征提取模块11的参数进行调整，从而拥有新的参数的特征提取模块11能够生成新的包含上下文信息的单词序列F(x)，根据新的包含上下文信息的单词序列F(x)，重复上述步骤进行下一轮训练。

优选的，在每轮训练后按照以下方式对第一训练模型的特征提取模块11的参数进行调整：

其中，θ_f表示本次调整后特征提取模块11的参数，θ’_f表示本次调整前特征提取模块11的参数，μ表示学习率，L_task表示识别模块12的损失函数，L_type表示领域区分模块13的损失函数，L_target表示自动编码模块14的损失函数，-ω表示梯度翻转参数，α、β、γ表示用户设置的权重。

优选的，在每轮训练后按照以下方式对第一训练模型的识别模块12、领域区分模块13和自动编码模块14的参数进行调整：

识别模块12对应的参数调整方式为：

领域区分模块13对应的参数调整方式为：

自动编码模块14对应的参数调整方式为：

其中，θ_t表示本次调整后识别模块12的参数，θ’_y表示本次调整前识别模块12的参数，θ_d表示本次调整后领域区分模块13的参数，θ’_d表示本次调整前领域区分模块13的参数，θ_r表示本次调整后自动编码模块14的参数，θ’_r表示本次调整前自动编码模块14的参数，μ表示学习率，α、β、γ表示用户设置的权重。

优选的，训练第一训练模型的目标是将其训练至收敛，其中一个判断标准就是训练至使第一训练模型的特征提取模块11、识别模块12、领域区分模块13对应的损失函数的加权求和结果最小化，即最小化以下总损失函数：

L_total＝αL_task+βL_target+γL_type；

其中，α、β、γ表示用户设置的权重。或者说，α、β、γ表示用户设置的用于权衡第一训练模型的特征提取模块11、识别模块12、领域区分模块13的损失函数的影响的权重。

步骤A3：构建第二训练模型，所述第二训练模型包括特征提取模块21和识别模块22，第二训练模型的特征提取模块21的初始参数采用经步骤A2训练后的第一训练模型的特征提取模块11的参数进行设置，识别模块22的初始参数采用随机初始化的方式进行设置。识别模块22的初始参数采用随机初始化的方式进行设置可以生成均匀分布的参数，减少将模型训练至收敛的时间，也会更容易将模型训练到最优效果而不是次优效果。

第二训练模型的特征提取模块21的结构和第一训练模型的特征提取模块11的结构相同，即，包括预处理层、CNN模型、Word2Vec模型和包含前向LSTM和后向LSTM的BiLSTM模型。在完成对第一训练模型的训练后，通过迁移学习的方式将训练第一训练模型的特征提取模块11得到的参数用于设置第二训练模型的特征提取模块21。此外，第二训练模型的识别模块22包括BiLSTM-CRF模型。其中，与第一训练模型的识别模块12不同，第二训练模型采用的目标领域标记数据集的实体标签设置其识别模块22的BiLSTM-CRF模型的CRF层的标签，由此，以根据目标领域的实体标签对目标领域的数据进行命名实体识别。

步骤A4：用第三数据集以监督训练的方式对由步骤A3构建的第二训练模型的特征提取模块21和识别模块22的进行参数微调，将经参数微调后的第二训练模型作为命名实体识别模型，其中，第三数据集是以单词向量形式表示的有实体标签的目标领域标记数据集。第三数据集带有目标领域的实体标签，可以用于对第二训练模型进行监督训练，以对第二训练模型的特征提取模块21和识别模块22的参数进行调整，从而使最终得到的命名实体识别模型对目标领域的数据进行命名实体识别的准确性得到进一步地改善。应当理解地是，命名实体识别模型包括特征提取模块31和识别模块32。其中，命名实体识别模型的特征提取模块31是由第二训练模型的特征提取模块21经参数微调后得到的。命名实体识别模型的识别模块32是由第二训练模型的识别模块22经参数微调后得到的。

下面通过一个具体实验示例来说明本发明。

第一部分：数据集设置

源领域标记数据：为了训练对抗学习网络(第一训练模型的特征提取模块和领域区分模块)进行命名实体识别，使用了Ontonotes5.0英文数据集。

目标领域标记数据：为了训练和评估提出的模型，使用了Ritter11数据集。

目标领域未标记数据：为了训练对抗学习网络保留通用特征，本发明需要使用具有大规模未标记推文的数据集；因此，本发明使用Twitter的接口从Twitter构造了大规模的Twitter领域未标记数据集作为目标领域未标记数据。

Ontonotes5.0和Ritter11数据集的统计信息如表1所示，可以看到Ontonotes5.0的训练数据集单词数量(Token数量)为848,220，Ritter11的训练数据集单词数量为37,098。构造的Twitter领域未标记数据的验证数据集单词数量为1,177,746。

表1 Ontonotes5.0和Ritter11数据集统计信息

	Ontonotes5.0数据集	Ritter11数据集
			训练数据集单词数量	848,220	37,098
验证数据集单词数量	144,319	4,461
			测试数据集单词数量	49,235	4,730
训练数据集句子数量	33,908	1,915
			验证数据集句子数量	5,771	239
测试数据集句子数量	1,898	240
			命名实体类别数量	18	10

在本领域，获取到数据集后，通常会将数据集分为表1所示的三个部分，分别是训练数据集(简称训练集)、验证数据集(简称验证集)和测试数据集(简称测试集)。训练集用于训练模型，训练中会用训练集中的样本对各个模型或者模块多轮训练，训练至收敛。满足以下评价规则中任意一个则视为模型已训练至收敛：第一评价规则：训练轮数达到自定义的上限轮数；第二评价规则：命名实体识别模型对应的F1值在一轮训练后与其前一轮训练后相比变化幅度小于等于预设变化幅度阈值；第三评价规则：训练轮数已达到自定义的下限轮数,并且命名实体识别模型在验证集上识别的精确率在某一轮训练后与其前一轮训练后相比没有提升。例如，下限轮数设为2，上限轮数设为30，变化幅度阈值设为设为±0.5％。验证集用于统计评估指标、调节参数、选择算法。测试集用于在最后整体评估模型的性能。

对于表1中Ontonotes5.0数据集的18个命名实体类别和Ritter11数据集的10个命名实体类别对应的实体标签可分别参见下面的表2和表3。此外，通常用标签O(Outside)表示非实体。

表2 Ontonotes5.0数据集实体标签

表3 Ritter11数据集实体标签

第二部分：实验设置

因为标记的Ontonotes5.0数据集的大小是标记的Ritter11数据集的20倍以上，所以如果直接使用合并的数据集训练模型，最终结果会更加偏向于Ontonotes5.0数据集，使得训练结果较差。因此，本发明首先在Ontonotes5.0数据集和Twitter领域未标记数据集上进行对抗训练，然后使用Ritter11数据集来以低学习率微调(fine-tune)第二训练模型的参数。微调(fine-tune)就是使用已经训练好的模型参数当做训练的起点，在新的数据上重新训练一遍的过程。

本示例的实验中，模型使用的超参数如下：目前的优化器主要有AdaGrad、RMSProp、Adam以及AdaDelta。经过进行实验对使用各个优化器的效果对比，本发明中对抗学习过程选择AdaGrad优化器，学习率设置范围为(0～1]，本示例用0.1作为默认学习率。微调(fine-tune)过程选择Adam优化器，学习率设置范围为(0～1]，本示例中用0.0001作为默认学习率，并且使用早停机制(early stop)训练轮数设置范围例如为(0～100]，本示例中设置为100。单词嵌入特征使用Google发布的将字词转换成多维向量的Word2Vec技术进行训练，Word2Vec模型的维数设为默认的200维。字符级别嵌入特征使用CNN训练，维数设置范围为(0～300],本示例中设置为25维。使用BiLSTM进行编码，每层隐藏的神经元的个数的设置范围例如为(0～300]，本示例中每层包含250个隐藏的神经元。使用三层标准LSTM进行解码，每个LSTM层的隐藏的神经元的个数的设置范围例如为(0～1000]，本示例中由500个隐藏的神经元组成。本示例中，权重α、β、γ均设置为1。应当注意的是，以上训练轮数、维度、神经元个数等的设置范围仅是示意性的，在计算资源充足的情况下也可设置为更大数值，本发明对此不作任何限制。

基线实验为如图4所示的使用本章提出的特征提取模块的基础BiLSTM-CRF模型在Ritter11数据集上的训练结果，记作In-domain。即，直接将Bob Dylan visited Sweden这类样本的字符级别嵌入特征和单词嵌入特征进行拼接后输入BiLSTM-CRF模型的BiLSTM层和CRF层，得到命名实体识别结果。比如，对样本Bob Dylan visited Sweden的命名实体识别结果分别为：B-PER I-PER O B-GPE。B-PER表示Bob是人名实体(Begin，开始)，I-PER表示Dylan是人名实体(Inside，内部)，O表示visited是非实体，B-GPE表示Sweden是国家、城市、州这类实体(Begin，开始)。

此外，本发明也使用了如图5所示的现有的参数初始化方法(INIT)和多任务学习方法(MULT)作为对比试验。这两个现有方法的具体描述如下：

参数初始化方法：首先使用源领域训练数据D_S训练源模型M_S。接下来，构造目标模型M_T并重建最后的CRF层，以解决输出空间(标签)不同的问题。使用学习到的M_S的参数来初始化M_T(不包括CRF层)。最后，继续使用目标领域训练数据D_T训练M_T。

多任务学习方法：多任务学习同时使用D_S和D_T训练M_S和M_T。M_S和M_T的参数(不包括CRF层)在训练过程中共享。在一些现有技术方案中都使用超参数λ，作为从D_S而非D_T中选择实例的概率来优化模型参数。通过选择超参数λ，多任务学习过程在目标领域中表现更好。但是，其存在源领域大、目标领域小，偏向源领域，效果不好。

第三部分：评价方法和指标

评价方法采用CoNLL03会议规定的完全匹配，即实体的边界和类型均匹配才算作正确匹配(正确标注)。

评价指标使用精确率(Precision)，召回率(Recall)和F1值(F1-score)，计算方式如下：

精确率：

召回率：

F1值：

其中，TP表示True Positive(TP)，是指被模型预测为正的正样本(实体单词被正确标注)；可以称作判断为真的正确率；

FP表示False Positive(FP)，是指被模型预测为正的负样本(非实体单词被标注为实体)；可以称作误报率；

FN表示False Negative(FN)，是指被模型预测为负的正样本(实体单词被标注为非实体)；可以称作漏报率。

该示例的实验结果如表4所示：

表4实验结果

从表4可以看出，只使用特征提取模块和NER分类模块进行微调(fine-tune)的本发明模型(即表4第5行)与In-domain方法、INIT方法和MULT方法效果相近，因为只使用特征提取模块和NER分类模块进行微调(fine-tune)本质上就是标准迁移学习方法。而在此基础上增加领域区分模块和特征提取模块组成对抗学习网络(即表4第6行)可以提高性能，并且增加领域区分模块和目标域自动编码模块(即表4第7行)比单独增加领域区分模块性能更高，表明通过在目标领域中引入自动编码模块，可以保留特定于域的特征以获得更好的性能。实验结果表明本发明提出的模型可以极大地帮助执行跨域命名实体识别。

根据本发明的一个实施例，提供一种基于前述实施例的命名实体识别模型训练方法训练得到的命名实体识别模型的命名实体识别方法，其特征在于，所述命名实体识别模型包括特征提取模块31和识别模块32，所述命名实体识别方法包括：B1、通过命名实体识别模型的特征提取模块31获取待识别文本的字符级别嵌入特征和单词嵌入特征并进行串联拼接，得到待识别文本中各单词的单词向量；B2、将单词向量的形式表示的待识别文本输入命名实体识别模型的识别模块32，得到所述待识别文本的命名实体识别结果。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种命名实体识别模型训练方法，其特征在于，所述方法包括：

A1、构建第一训练模型，所述第一训练模型包括特征提取模块、识别模块和领域区分模块；

A2、对第一训练模型进行多轮训练，其中，每轮训练中，用第一数据集对识别模块进行训练、用第一数据集和第二数据集对特征提取模块和领域区分模块进行对抗训练，每轮训练后至少根据识别模块的损失函数和领域区分模块的损失函数对特征提取模块的参数进行调整，同时更新第一数据集和第二数据集，以更新后的第一数据集和第二数据集进行下一轮训练，其中，第一数据集是以单词向量形式表示的有命名实体标签的源领域标记数据集，第二数据集是以单词向量形式表示的无命名实体标签的目标领域未标记数据集；

A3、构建第二训练模型，所述第二训练模型包括特征提取模块和识别模块，第二训练模型的特征提取模块的初始参数采用经步骤A2训练后的第一训练模型的特征提取模块的参数进行设置，识别模块的初始参数采用随机初始化的方式进行设置；

A4、用第三数据集以监督训练的方式对由步骤A3构建的第二训练模型的特征提取模块和识别模块的进行参数微调，将经参数微调后的第二训练模型作为命名实体识别模型，其中，第三数据集是以单词向量形式表示的有命名实体标签的目标领域标记数据集；

其中，所述第一训练模型中的特征提取模块包括预处理层、CNN模型、Word2Vec模型、包含前向LSTM和后向LSTM的BiLSTM模型，其中，前向LSTM、后向LSTM分别包括多个依次连接的LSTM单元；

该特征提取模块分别对非单词向量形式表示的源领域标记数据集、目标领域未标记数据集、目标领域标记数据集进行如下处理以获得第一数据集、第二数据集、第三数据集：

用所述预处理层对数据集的单词进行包含统一大小写和去除停用词的预处理；

用CNN模型提取数据集中各单词的字符级别嵌入特征；

用Word2Vec模型提取数据集中各单词的单词嵌入特征；

对数据集中各单词的字符级别嵌入特征和单词嵌入特征进行串联拼接，得到各单词的向量表示；

将数据集中各单词的向量表示输入特征提取模块的BiLSTM模型中进行处理，得到包含上下文信息的以单词向量形式表示的数据集。

2.根据权利要求1所述的命名实体识别模型训练方法，其特征在于，所述源领域标记数据集的规模与所述目标领域未标记数据集的规模相同或者大致相同，所述目标领域标记数据集的规模小于所述目标领域未标记数据集的规模。

3.根据权利要求2所述的命名实体识别模型训练方法，其特征在于，规模相同或者大致相同是指源领域标记数据集与目标领域未标记数据集的数据量之比为：10:14～10:9。

4.根据权利要求1至3任一所述的命名实体识别模型训练方法，其特征在于，第一训练模型和第二训练模型的识别模块均包括BiLSTM-CRF模型，其中，采用源领域标记数据的命名实体标签设置第一训练模型中识别模块的BiLSTM-CRF模型的CRF层的标签取值空间，采用的目标领域标记数据集的命名实体标签设置第二训练模型的识别模块的BiLSTM-CRF模型的CRF层的标签设置。

5.根据权利要求3所述的命名实体识别模型训练方法，其特征在于，所述第一训练模型还包括梯度反转层，对特征提取模块和领域区分模块进行对抗训练过程中，在正向传播时通过梯度反转层对第一训练模型的特征提取模块和领域区分模块执行标准随机梯度下降操作，并且在反向传播时，在将领域区分模块的损失函数返回到特征提取模块之前将梯度反转层的参数自动取反，以使特征提取模块提取源领域标记数据集和目标领域未标记数据集中单词的通用特征。

6.根据权利要求5所述的命名实体识别模型训练方法，其特征在于，所述第一训练模型还包括自动编码模块，用第二数据集对自动编码模块进行训练，每轮训练后，根据自动编码模块的损失函数、识别模块的损失函数和领域区分模块的损失函数共同更新特征提取模块的参数。

7.根据权利要求6所述的命名实体识别模型训练方法，其特征在于，所述自动编码模块包含编码器和解码器，

其中，每轮训练中，编码器获取用特征提取模块的BiLSTM模型提取到目标领域未标记数据集的单词的前向LSTM中最后一个LSTM和后向LSTM中最后一个LSTM的隐藏状态并组合为解码器的初始状态特征，并使用该初始状态特征和其前一个单词嵌入特征作为解码器的输入以训练自动编码模块提取目标领域的私有特征。

8.根据权利要求7所述的命名实体识别模型训练方法，其特征在于，在步骤A2中，按照以下方式对第一训练模型的特征提取模块的参数进行调整：

9.根据权利要求8所述的命名实体识别模型训练方法，其特征在于，所述步骤A2还包括：在每轮训练后按照以下方式对第一训练模型的识别模块、领域区分模块和自动编码模块的参数进行调整：

识别模块对应的参数调整方式为：

领域区分模块对应的参数调整方式为：

自动编码模块对应的参数调整方式为：

其中，θ_y表示本次调整后识别模块的参数，θ’_y表示本次调整前识别模块的参数，θ_d表示本次调整后领域区分模块的参数，θ’_d表示本次调整前领域区分模块的参数，θ_r表示本次调整后自动编码模块的参数，θ’_r表示本次调整前自动编码模块的参数。

10.一种基于如前述权利要求1至9任一项所述的命名实体识别模型训练方法训练得到的命名实体识别模型的命名实体识别方法，其特征在于，所述命名实体识别模型包括特征提取模块和识别模块，

所述命名实体识别方法包括：

B1、通过命名实体识别模型的特征提取模块获取待识别文本的字符级别嵌入特征和单词嵌入特征并进行串联拼接，得到待识别文本中各单词的单词向量；

B2、将单词向量的形式表示的待识别文本输入命名实体识别模型的识别模块，得到所述待识别文本的命名实体识别结果。

11.一种计算机可读存储介质，其特征在于，其上包含有计算机程序，所述计算机程序可被处理器执行以实现权利要求1至10中任一项所述方法的步骤。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

存储器，其中存储器用于存储一个或多个可执行指令；

所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现权利要求1至10中任一项所述方法的步骤。