CN110826327A

CN110826327A - 情感分析方法、装置、计算机可读介质及电子设备

Info

Publication number: CN110826327A
Application number: CN201911073078.5A
Authority: CN
Inventors: 杨正良; 刘设伟
Original assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Current assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2020-02-21

Abstract

本公开实施例提供了一种情感分析方法、情感分析装置、计算机可读介质及电子设备，涉及数据处理技术领域。该情感分析方法包括：对文本信息进行向量表示获得所述文本信息的词向量；从不同的维度对所述词向量进行特征提取，以获取所述文本信息对应的特征向量；根据所述特征向量对所述文本信息进行情感分类，确定所述文本信息的情感极性，以根据所述情感极性对所述文本信息进行检索。本公开实施例的技术方案通过从不同维度提取文本信息的特征，确定文本信息的情感分类，能够提高情感分析的精确性，并且，不同维度的特征提取可以并行处理，从而可以提供情感分析的效率。

Description

情感分析方法、装置、计算机可读介质及电子设备

技术领域

本公开涉及数据处理技术领域，具体而言，涉及一种情感分析方法、情感分析装置、计算机可读介质及电子设备。

背景技术

为了满足人们的需求，互联网产品越来越丰富。无论对于任何场景，在线交流都是最基本的需要，例如，人工智能、电子商务等。

在当前的智能客服机器人系统中，用户在对话过程中常常伴随有情绪波动，会话内容中会包含带有喜怒哀乐等情感色彩的词，通过这些词可以看出用户当前的体验是否良好。针对用户的不同的情绪能够为用户提供更好的服务，或者了解用户对于产品的态度，从而更好的改进产品。由于深度学习技术的优越的性能，大多数情感分析都是通过深度学习的方法进行，但是深度学习模型非常复杂，在模型构建过程中需要花费大量的时间，而简单的模型又无法保障预测的准确率。因此，情感分析方法的效率仍有待提高。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开实施例的目的在于提供一种情感分析方法、情感分析装置、计算机可读介质及电子设备，进而至少在一定程度上克服因构建模型花费大量时间，而导致情感分析效率低的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的第一方面，提供了一种情感分析方法，包括：

对文本信息进行向量表示获得所述文本信息的词向量；

从不同的维度对所述词向量进行特征提取，以获取所述文本信息对应的特征向量；

根据所述特征向量对所述文本信息进行情感分类，确定所述文本信息的情感极性，以根据所述情感极性对所述文本信息进行检索。

在本公开的一种示例性实施例中，所述从不同的维度对所述词向量进行特征提取，获取特征向量，包括：

通过不同的特征提取算法提取所述词向量的多个维度的特征向量。

在本公开的一种示例性实施例中，所述通过不同的特征提取算法提取所述词向量的多个特征向量，包括：

通过长短期记忆网络提取所述词向量的第一特征向量；

通过基于门机制的卷积网络提取所述词向量的第二特征向量；

通过卷积神经网络提取所述词向量的第三特征向量。

在本公开的一种示例性实施例中，所述根据所述特征向量确定所述文本信息的情感分类，包括：

通过最大池化或平均池化将所述第一特征向量、第二特征向量和第三特征向量进行结合，确定所述文本信息的情感分类。

通过长短期记忆网络提取所述词向量的第一特征向量；

将所述第一特征向量输入基于门机制的卷积网络，获取第二特征向量；

将所述第二特征向量输入卷积神经网络，获取第三特征向量。

在本公开的一种示例性实施例中，所述对文本信息进行向量表示获得所述文本信息的词向量，包括：

对文本信息进行预处理；

对预处理后的文本信息进行序列化；

将序列化后得到数据进行向量表示，得到词向量。

在本公开的一种示例性实施例中，所述将序列化后的数据进行向量表示，得到词向量包括：

获取语料数据，对所述语料数据中的字和词分配不同的权重，以获得所述字和词的特征编码；

通过所述特征编码构建嵌入层，以将序列化后得到的数据输入所述嵌入层获取词向量。

在本公开的一种示例性实施例中，预处理可以包括用于分词处理、特殊符号去除处理、统一编码处理中的一种或多种。

根据本公开实施例的第二方面，提供了一种情感分析装置，包括：文本转化单元，用于对文本信息进行向量表示获得所述文本信息的词向量；特征提取单元，用于从不同的维度对所述词向量进行特征提取，以获取所述文本信息对应的特征向量；情感确定单元，用于根据所述特征向量对所述文本信息进行情感分类，确定所述文本信息的情感极性，以根据所述情感极性对所述文本信息进行检索。

在本公开的一种示例性实施例中，特征提取单元具体可以用于：

在本公开的一种示例性实施例中，特征提取单元具体可以包括：

特征提取第一单元，用于通过长短期记忆网络提取所述词向量的第一特征向量；

特征提取第二单元，用于通过基于门机制的卷积网络提取所述词向量的第二特征向量；

特征提取第三单元，用于通过卷积神经网络提取所述词向量的第三特征向量。

在本公开的一种示例性实施例中，分类确定单元可以具体用于：

通过最大池化或平均池化将将所述第一特征向量、第二特征向量和第三特征向量进行结合，确定所述文本信息的情感分类。

在本公开的一种示例性实施例中，特征提取单元可以具体用于：

通过长短期记忆网络提取所述词向量的第一特征向量；

在本公开的一种示例性实施例中，文本转化单元可以具体包括：

预处理单元，用于对文本信息进行预处理；

序列化单元，用于对预处理后的文本信息进行序列化；

向量表示单元，用于将序列化后得到数据进行向量表示，得到词向量。

示例性实施方式中，向量表示单元可以具体包括：

编码单元，用于获取语料数据，对所述语料数据中的字和词分配不同的权重，以获得所述字和词的特征编码；

向量输出单元，用于通过所述特征编码构建嵌入层，以将序列化后得到的数据输入所述嵌入层获取词向量。

根据本公开实施例的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述实施例中第一方面所述的情感分析方法。

根据本公开实施例的第四方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中第一方面所述的情感分析方法。

本公开实施例提供的技术方案可以包括以下有益效果：

在本公开的一些实施例所提供的技术方案中，一方面，通过从不同维度对词向量进行特征提取，能够提取文本信息的多个维度的特征，结合多个维度的特征能够更加全面地确定文本信息的情感分类，提高准确性；同时，根据文本信息的情感极性对文本信息进行检索，能够提高检索的情感针对性，从而有利于加深智能客服的智能程度。另一方面，从不同的维度对词向量进行特征提取的过程可以同时进行，能够缩短确定情感分类的时间，提高效率。再一方面，通过不同的维度进行特征提取能够充分挖掘文本中包含的情感特征，更加细化情感分类，有利于提高检索的针对性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出了根据本公开的实施例的情感分析方法的第一个流程示意图；

图2示意性示出了根据本公开的实施例的情感分析方法的第二个流程示意图；

图3示意性示出了根据本公开的实施例的情感分析方法的第三个流程示意图；

图4示意性示出了根据本公开的实施例的情感分析方法的第四个流程示意图；

图5示意性示出了根据本公开的实施例的情感分析方法的第五个流程示意图；

图6示意性示出了根据本公开的实施例的情感分析装置的框图；

图7示意性示出了用于实现本公开的实施例的情感分析方法系统架构图；

图8示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

下面，对本实施方式提供的情感分析方法进行描述。

为了提高用户满意度以及服务体验，对于在线用户来说对产品或服务进行评论或表达观点变得越来越平常。对一个比较受欢迎的产品，评论的数量可以以百计甚至以千计。这让产品的提供者收集用户观点变得非常困难。并且，对潜在的用户来说，为了做出决策而阅读所有的评论也不太可能。因此，对用户评论进行情感分析变得非常重要。

会话内容中，对每个特征aspect用户会表达不同的情感，aspect可以指用户评论的产品特征。通过分析不同的aspect的情感倾向可以更好地了解用户对产品的态度目前，即，基于aspect的文本情感分析方法(Aspect based sentiment analysis，简称为ABAS)。ABAS的主要任务是挖掘句子中涉及的aspect，以及对每个aspect的情感倾向。因此，该方法可以分为两个部分：(1)aspect识别，可以是aspect term提取或者aspect分类；(2)aspect的情感识别。Aspect term提取指的是从原文本中直接提取涉及到aspect的单词或词组，而aspect分类指的是为每个领域预定义aspect种类，然后对会话中的每个句子进行分类。每个句子可以属于一个或者多个aspect，也可以不属于任何aspect。

ABSA中这两部分可看作两个分离的任务，即在判断情感极性时并不考虑针对的aspect的信息，这样导致分类不正确，因为同一个形容词对不同aspect或在不同领域形容不同的aspect时表达的情感是不一样的，比如，“这家餐厅很便宜但是服务太糟糕了”，“便宜”在形容食物时是积极的，但“糟糕”形容服务时表达的是消极的。所以在ABSA任务中，需要考虑aspect和情感信息之间的交互。

相关的情感分析方式中，大多都是通过构建LSTM、Attention等来预测有关目标的情感极性，为了使模型对情感极性的预测更加准确，网络结构非常复杂。然而，复杂的模型在构建时需要花费大量的时间，造成情感分析的效率较低的问题。

基于此，本公开实施方式中首先提出一种情感分析方法。如图1所示，该情感分析方法可以包括以下步骤：

S110.对文本信息进行向量表示获得所述文本信息的词向量；

S120.从不同的维度对所述词向量进行特征提取，以获取所述文本信息对应的特征向量；

S130.根据所述特征向量对所述文本信息进行情感分类，以确定所述文本信息的情感极性，以根据所述情感极性对所述文本信息进行检索。

根据本公开的示例性实施方式提供的情感分析方法，一方面，通过从不同维度对词向量进行特征提取，能够提取文本信息的多个维度的特征，结合多个维度的特征能够更加全面地确定文本信息的情感分类，提高准确性；同时，根据文本信息的情感极性对文本信息进行检索，能够提高检索的情感针对性，从而有利于加深智能客服的智能程度。另一方面，从不同的维度对词向量进行特征提取的过程可以同时进行，能够缩短确定情感分类的时间，提高效率。再一方面，通过不同的维度进行特征提取能够充分挖掘文本中包含的情感特征，更加细化情感分类，有利于提高检索的针对性。

下面，对本公开实施方式提供的情感分析方法的各个步骤进行更加详细的阐述。

参考图1，首先，对于步骤S110，对文本信息进行向量表示获得文本信息的词向量。

示例性实施方式中，文本信息可以包括任何文字内容，例如客服系统的会话记录、平台用户的评论等。对文字进行编码可以将文字内容转化为向量，词向量可以为文本信息的向量表示。对文本信息进行向量表示获得词向量可以具体通过步骤S201至步骤S203，如图2所示。其中：

S201.对文本信息进行预处理；

S202.对预处理后的文本信息进行序列化；

S203.将序列化后得到数据进行向量表示，得到词向量。

首先对文本信息进行预处理。可选地，预处理可以包括分词处理、去除特殊符号处理、统一编码处理中的一种或多种。其中，分词处理可以指对文本信息进行切分，得到一个个单独的词。对文本信息进行分词处理以便于将文本信息转化为词向量。对文本信息进行预处理得到预处理后，再对预处理后得到的文本信息进行序列化。序列化可以指将实体的文字转化为抽象的数值表示，从而可以将文本信息转化成数据流，便于读取和传输。然后，再将序列化后得到的数据表示成向量得到词向量序列。

可选的实施方式中，得到词向量还可以具体通过步骤S301至步骤S302，如图3所示。其中：

S301.获取语料数据，对所述语料数据中的字和词分配不同的权重，以获得所述字和词的特征编码；

S302.通过所述特征编码构建嵌入层，将序列化后得到的数据输入所述嵌入层获取词向量。

语料数据可以指语料库中保存的文本信息。语料库中可以保存在实际使用过程中真实出现的语言材料，例如，百度百科、中文维基百科、人民日报等记载的文本。将从语料库获取的语料数据作为训练数据，利用训练数据构建嵌入层，以对字和词进行向量表示。具体地，对语料数据中的字和词分配不同的权重，然后对字和词进行编码获得字和词对应的特征编码。对字和词进行编码可以指将字和词映射到实数上，即，每个字或词都对应一实数序列。利用字和词与特征编码的映射关系构建嵌入层，从而序列化后得到的数据输入嵌入层，得到文本信息的词向量。

其中，嵌入层(Embedding层)可以作为模型的一部分。可选地，在嵌入层后还可以使用正则化函数对数据进行正则化，从而得到正则化后的词向量。并且，通过嵌入层可以将序列化后的数据转换为具有固定大小的词向量。

然后，对于步骤S120，从不同的维度对词向量进行特征提取，获取文本信息对应的特征向量。

通过机器学习模型能够提取文本信息的词向量的特征，因此，在提取词向量特征之前需要构建机器学习模型。采用不同的算法可以构建不同的网络结构，进而从不同的维度对词向量进行特征提取，获取文本信息的不同维度的特征向量。例如，通过第一网络提取到词向量的第一维度的特征，通过第二网络提取到词向量的第二维度的特征，通过第三网络提取到词向量的第三维度的特征，从而得到文本信息的三个维度的特征。

示例性实施方式中，通过不同的特征提取算法提取词向量的多个特征向量可以具体包括步骤S401至步骤S403，如图4所示。具体地：

S401.通过长短期记忆网络提取所述词向量的第一特征向量；

S402.通过基于门机制的卷积网络提取所述词向量的第二特征向量；

S403.通过卷积神经网络提取所述词向量的第三特征向量，将所述第三特征向量作为所述文本信息对应的特征向量。

其中，长短期记忆网络(Long Short-Term Memory，LSTM)能够针对词向量中间隔较长但比较重要特征进行记忆，从而针对上下文特征进行提取。基于门机制的卷积网络利用门机制控制了aspect词的信息，使得文本信息中局部特征的表达更加充分，能够提高模型的精度，并且能够避免RNN或attention网络中耗时的网络结构，提高效率。并且，通过卷积神经网络更加充分地提取文本特征，从而进一步提升情感分析的精度。该多个网络的训练以及运行可以互相独立，同时进行，因此不会增加情感分析的时间。具体地：

LSTM可以是循环的结构，其中每一单元中的信息是否传递到下一单元，通过更新门(update gate)和重置门(reset gate)来确定。根据当前输入单词向量以及前一个隐藏层的状态计算出更新门和重置门的值；再根据重置门、当前输入的词向量以及前一个隐藏层的状态计算新的记忆单元内容。重置门能够用于控制忽略前一时刻的状态信息的程度，重置门越小则说明忽略地越大。当重置门为0的时候，新的记忆单元内容忽略前一个记忆单元的内容，最终的记忆单元内容是之前的隐藏层状态与新的记忆单元内容的结合。更新门可以用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。如果更新门一直接近1，则过去的隐含状态将一直通过时间保存并传递至当前时刻，从而可以应对循环神经网络中梯度衰减问题，并更好地捕捉时序数据中间隔较大的依赖关系。因此，将文本信息对应的词向量序列按照顺序输入LSTM网络，可以更好地提取上下文特征。

可选地，LSTM中单元的计算公式如下：

z_t＝σ(W_zx_t+U_zh_t-1+b_z)

γ_t＝σ(W_γx_t+W_γh_t-1+b_γ)

其中，σ表示sigmoid激活函数，tanh表示双曲正切激活函数。z_t表示更新门，γ_t表示重置门，这两个门的结果经过了一个sigmoid函数。

表示候选隐含状态，候选隐含状态使用了重置门来控制包含过去时刻信息的上一个隐含状态的流入。h_t表示隐含状态，隐含状态h_t使用更新门z_t来对上一个隐含状态h_t-1和候选隐含状态进行更新。针对每个时刻t，词向量序列输入该长短期记忆网络得到其输出的特征向量h_t，h_t表示LSTM的时刻t的特征向量输出。

基于门机制的卷积网络中可以包含Tanh-ReLU门控单元，该门控单元可以根据aspect有选择性地输出情感特征。该网络中可以包括多个卷积层，每个卷积层与一选通单元连接，并且各选通单元相互独立，互不影响，所以各个卷积层的计算可以并行进行。对于每个时刻t，通过两个卷积神经元计算出两个门的值：tanh门和relu。这两个卷积神经元中分别使用tanh函数和relu函数。通过两个卷积神经元计算的两个门的值，再进行池化，从而将句子中不重要的情感特征删除，保持最显著的情感特征。采用该网络能够比较快速地针对比较重要的的特征进行提取，从而提高特征提取效率。

可选地，该基于门机制的卷积神经网络单元的计算公式可以为：

α_i＝relu(X_i:i+kW_α+V_αv_α+b_α)

s_i＝tanh(X_i:i+kW_s+b_s)

c_i＝s_i×a_i

其中v_α是对给定的aspect的embedding层输出，或者是对aspect terms经过另一个CNN卷积得到的。上述公式中，可以理解为s_i是用来产生情感特征的，而a_i用来产生指定的aspect的情感特征的。对于relu门，其输出对于情感极性为正的输入来说没有上界，但是对于情感极性为负的输入来说就会变为0。因此可以根据给定的aspect、v_α和时刻t的aspect特征a_i计算一个相似度分数，如果分数为0，则说明情感特征s_i会被阻塞；否则，它的值会被相应的放大。

可选地，通过最大池化层对c_i进行处理，可以进一步移除那些对于整个句子不太重要的情感特征。

示例性地，首先将词向量通过cnn层得到特征S1和S2，然后将S1通过激活函数tanh得到tanh(S1)，S2通过激活函数relu得到relu(S2)，最后再将tanh(S1)与relu(S2)相乘进行最大池化得到最终的特征向量。

将词向量输入卷积神经网络CNN中，提取文本的局部特征并输出特征向量。并且，可以采用最大池化对卷积输出的特征进行处理，从而降低卷积输出的特征数量，更好地提取出文本的局部特征。或者，也可以采用平均池化方法对卷积层输出的特征进行处理。

对于步骤S130，根据所述特征向量对所述文本信息进行情感分类，确定所述文本信息的情感极性，以根据所述情感极性对所述文本信息进行检索。

示例性实施方式中，将LSTM、基于门机制的卷积网络、卷积神经网络提取的特征进行池化然后通过softmax函数对池化后输出的特征向量进行情感极性的预测。可以理解地，本实施方式中，通过LSTM、基于门机制的卷积网络、卷积神经网络能够构成一情感分类模型，通过该情感分类模型能够对文本信息进行情感分类，从而预测文本信息的情感极性。情感极性可以包括多种类型。根据实际情况可以预先确定情感极性的类型，例如，积极、消极、中性等；也可以进行更加细化的区分，例如，将情感极性进行量化分为10个等级，从1到10表示积极的程度等，本实施方式对此不做特殊限定。并且，预先可以获取大量的文本信息作为样本，并根据确定的情感极性的类型对每一文本信息的情感极性进行标注，然后利用标注后的样本对该情感分类模型进行训练，从而得到训练后的情感分类模型。将需要进行情感极性预测的文本信息输入该训练后的情感分类模型中，从而得到对于该文本信息的情感极性的预测结果。

可选的实施方式中，情感分类模型可以包括互相独立的LSTM、基于门机制的卷积网络、卷积神经网络以及一池化层，即，可以将文本信息的词向量同时输入这三个网络中，得到三个输出的特征向量，进而将这三个网络的输出进行进一步卷积和池化处理，得到文本信息的情感分类结果。或者，该情感分类模型可以包括级联的LSTM、基于门机制的卷积网络和卷积神经网络，，即，将文本信息的词向量输入LSTM，将LSTM输出的第一特征向量作为基于门机制的卷积网络的输入，以使基于门机制的卷积网络输出的第二特征向量，并，第二特征向量作为卷积神经网络的输入，从而得到卷积神经网络输出的第三特征向量，将第三特征向量作为文本信息对应的特征向量，对第三特征向量进行softmax处理，从而确定文本信息的的情感极性。

其中，Softmax能够对特征向量进行计算得到0-1之间的值，从而确定情感分类。或者，可以将LSTM提取的第一特征向量情感分类可以包括预设的多个类别，不同的类别表示不同的情感倾向。例如，对于餐厅的服务，可以分为正、负两类，正可以指用户对服务满意的，而负则可以表示用户不满意服务。当然，对于每一aspect，可以进行更加细化的分类，本实施方式对此不做限定。

确定文本信息的情感极性可以根据该情感极性对文本信息进行检索，具体的，根据用户当前输入的文本信息可以确定用户当前的情感极性，将用户当前的情感极性作为检索需求，从而检索出与用户当前情感极性相同或相近的文本，向用户展示，提高检索的情感针对性。

举例而言，在智能对话场景中：用户可以向智能客服系统中输入一文本信息，该智能客服系统可以包括情感分类模块，该模块可以由上述情感分类模型构成，或者通过访问接口调用该情感分类模型，从而通过该情感分类模型提取该文本信息的特征向量，并利用该特征向量进行情感极性的预测，通过预测的情感极性的结果可以确定用户当前的态度，从而匹配出与用户情感极性更加匹配的信息作为对于用户的回复，有利于提高智能客服的智能程度，进而提高用户体验。在查看评论的场景中：产品的评论区中可以包括成千上万的用户评论，将该用户评论可以作为文本信息，然后通过该情感分类模型对文本信息进行分类，将同一情感极性的文本分为同一类，可以得到多个类，如，积极、消极，从而使得用户可以直接选择查看积极的用户评论，或者消极的用户评论，方便用户更快的了解产品的优缺点，可以极大地节省用户信息检索的时间。图5示意性示出了本实施方式的情感分析方法的另一流程。如图5所示，本实施方式可以包括步骤S501至S509，如下：

S501.获取语料数据，对语料数据进行预处理；

S502.将预处理后的数据序列化；

S503.构建embedding层，并对embedding层进行正则化处理；

S504.将序列化后的数据输入embedding层，得到文本对应的词向量；

S505.将词向量输入LSTM网络中，得到第一特征向量；

S506.将第一特征向量输入基于门机制的卷积网络，得到第二特征向量；

S507.将第二特征向量输入卷积神经网络中，再次提取特征得到第三特征向量；

S508.通过最大池化对第三特征向量进行池化处理，通过softmax确定语料数据的情感极性。

S509.通过语料数据的情感极性对语料数据进行分类，以便于对语料数据进行检索。

其中，语料数据可以作为文本信息。根据不同的应用场景可以获取不同的语料数据。例如，需要确定用户对于产品的态度时，可以从多种系统的数据库中获取用户评论作为语料数据；需要进行智能对话时，可以从社交通信软件的数据库中获取的用户的对话记录，将对话记录作为语料数据；此外，在其他场景中语料数据也可以包括其他文本，例如，通过人工智能系统模型对话产生对话信息等，本实施方式不限于此。

通过语料数据的情感极性可以对语料数据进行分类，获得多个类。如果接收到检索请求，可以根据用户输入的目标文本的情感极性，确定用户的情感极性对应的目标类，从而显示目标类中包含的语料数据，供用户查看。或者，从目标类包含的语料数据中选取一目标文本，返回给用户，作为对于该用户的回复，从而实现与用户之间的智能对话。

需要说明的是，图5中的步骤为上述具体实施例的总结，故，步骤S501～步骤S508在上述具体实施例中均对其进行了说明，请参见前述步骤，此处不再赘述。

通过本实施方式，能够对文本信息中的特征进行不同维度的

以下介绍本公开的装置实施例，可以用于执行本公开上述的情感分析方法。如图6所示，本实施方式的情感分析装置600可以包括文本转化单元610、特征提取单元620以及分类确定单元630。

其中，文本转化单元610可以用于对文本信息进行向量表示获得所述文本信息的词向量；特征提取单元620可以用于从不同的维度对所述词向量进行特征提取，以获取所述文本信息对应的特征向量；分类确定单元630可以用于根据所述特征向量对所述文本信息进行情感分类，确定所述文本信息的情感极性。

在示例性实施方式中，特征提取单元620具体可以用于通过不同的特征提取算法提取所述词向量的多个维度的特征向量。

在示例性实施方式中，特征提取单元620具体可以包括特征提取第一单元、特征提取第二单元和特征提取第三单元。

具体地，特征提取第一单元可以用于通过长短期记忆网络提取所述词向量的第一特征向量；特征提取第二单元可以用于通过基于门机制的卷积网络提取所述词向量的第二特征向量；特征提取第三单元可以用于通过卷积神经网络提取所述词向量的第三特征向量。

示例性实施方式中，分类确定单元630可以具体用于通过最大池化或平均池化将将所述第一特征向量、第二特征向量和第三特征向量进行结合，确定所述文本信息的情感分类。

示例性实施方式中，特征提取单元620可以具体用于通过长短期记忆网络提取所述词向量的第一特征向量；将所述第一特征向量输入基于门机制的卷积网络，获取第二特征向量；将所述第二特征向量输入卷积神经网络，获取第三特征向量。

示例性实施方式中，文本转化单元610可以具体包括预处理单元、序列化单元和向量表示单元。

具体地，预处理单元可以用于对文本信息进行预处理；序列化单元可以用于对预处理后的文本信息进行序列化；向量表示单元可以用于将序列化后得到数据进行向量表示，得到词向量。

示例性实施方式中，预处理单元可以用于分词处理、特殊符号去除处理、统一编码处理中的一种或多种。

示例性实施方式中，向量表示单元可以具体包括编码单元和向量输出单元。

具体地，编码单元可以用于获取语料数据，对所述语料数据中的字和词分配不同的权重，以获得所述字和词的特征编码；向量输出单元可以用于通过所述特征编码构建嵌入层，以将序列化后得到的数据输入所述嵌入层获取词向量。

由于本公开的示例实施例的情感分析装置的各个功能模块与上述的情感分析方法的示例实施例的步骤对应，因此对于本公开装置实施例中未披露的细节，请参照本公开上述的情感分析方法的实施例。

图7示出了可以应用本公开实施例的情感分析方法及情感分析装置的示例性应用环境的系统架构的示意图。

如图7所示，系统架构700可以包括终端设备701、702、703中的一个或多个，网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。终端设备701、702、703可以是具有显示屏的各种电子设备，包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器705可以是多个服务器组成的服务器集群等。

本公开实施例所提供的情感分析方法一般由服务器705执行，相应地，情感分析装置一般设置于终端设备705中。但本领域技术人员容易理解的是，本公开实施例所提供的情感分析方法也可以由终端设备701、702、703执行，相应的，情感分析装置也可以设置于终端设备701、702、703中，本示例性实施例中对此不做特殊限定。举例而言，在一种示例性实施例中，服务器705可以对文本信息进行向量表示获得所述文本信息的词向量，并且，还可以从不同的维度对所述词向量进行特征提取，获取特征向量，然后可以根据所述特征向量确定所述文本信息的情感极性。

下面参考图8，其示出了适于用来实现本公开实施例的电子设备的计算机系统800的结构示意图。图8示出的电子设备的计算机系统800仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM803中，还存储有系统操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如上述实施例中所述的情感分析方法。

例如，所述的电子设备可以实现如图1中所示的：步骤S110，对文本信息进行向量表示获得所述文本信息的词向量；步骤S120，从不同的维度对所述词向量进行特征提取，以获取所述文本信息对应的特征向量；步骤S130，根据所述特征向量对所述文本信息进行情感分类，确定所述文本信息的情感极性。

又如，所述的电子设备可以实现如图2所示的各个步骤。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种情感分析方法，其特征在于，包括：

对文本信息进行向量表示获得所述文本信息的词向量；

2.根据权利要求1所述的方法，其特征在于，所述从不同的维度对所述词向量进行特征提取，获取特征向量，包括：

3.根据权利要求2所述的方法，其特征在于，所述从不同的维度对所述词向量进行特征提取，以获取所述文本信息对应的特征向量，包括：

通过长短期记忆网络提取所述词向量的第一特征向量；

通过卷积神经网络提取所述词向量的第三特征向量，将所述第一特征向量、所述第二特征向量与所述第三特征向量作为所述文本信息对应的特征向量。

4.根据权利要求3所述的方法，其特征在于，所述确定所述文本信息的情感极性，包括：

通过最大池化或平均池化将所述第一特征向量、第二特征向量和第三特征向量进行结合，以确定所述文本信息的情感极性。

5.根据权利要求1所述的方法，其特征在于，所述从不同的维度对所述词向量进行特征提取，以获取所述文本信息对应的特征向量，包括：

通过长短期记忆网络提取所述词向量的第一特征向量；

将所述第二特征向量输入卷积神经网络，获取第三特征向量，将所述第三特征向量作为所述文本信息对应的特征向量。

6.根据权利要求1所述的方法，其特征在于，所述对文本信息进行向量表示获得所述文本信息的词向量，包括：

对文本信息进行预处理；

对预处理后的文本信息进行序列化；

将序列化后得到数据进行向量表示，得到词向量。

7.根据权利要求6所述的方法，其特征在于，所述将序列化后的数据进行向量表示，得到词向量包括：

8.一种情感分析装置，其特征在于，包括：

文本转化单元，用于对文本信息进行向量表示获得所述文本信息的词向量；

特征提取单元，用于从不同的维度对所述词向量进行特征提取，以获取所述文本信息对应的特征向量；

分类确定单元，用于根据所述特征向量对所述文本信息进行情感分类，确定所述文本信息的情感极性，以根据所述情感极性对所述文本信息进行检索。

9.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7中任一项所述的情感分析方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至7中任一项所述的情感分析方法。