CN113609847B

CN113609847B - 信息抽取方法、装置、电子设备及存储介质

Info

Publication number: CN113609847B
Application number: CN202110912810.4A
Authority: CN
Inventors: 魏谨谦; 施鹏; 姚后清; 吴广发
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2023-10-27
Anticipated expiration: 2041-08-10
Also published as: CN113609847A

Abstract

本公开提供了一种信息抽取方法、装置、电子设备及存储介质，涉及计算机技术领域，尤其涉及文本处理技术领域。具体实现方案为：获取待处理的数据内容；将该数据内容输入至预先训练完成的目标网络模型，得到输出结果；其中，所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型；所述样本集包括多个正样本和多个负样本，所述正样本为设置有标注信息的样本语句，所述负样本为未设置有所述标注信息的样本语句，所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述；基于所述输出结果，确定所述数据内容中的目标实体和所述目标实体的实体描述。

Description

信息抽取方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及文本处理技术领域，具体涉及一种信息抽取方法、装置、电子设备及存储介质。

背景技术

所谓实体，表示具体的事物，例如：工厂、恒星等；而实体描述能够反映实体的属性。

目前，针对实体和相应实体描述的信息抽取方案均是无监督的方案，这些无监督的方案属于规则类的抽取方案，具有固定性。若文本中存在实体和该实体的实体描述，但所存在实体和实体描述不符合抽取方案中所设定的抽取规则，此时，则无法抽取到实体和相应的实体描述。

发明内容

本公开提供了一种用于信息抽取的方法、装置、设备以及存储介质。具体方案如下：

根据本公开的一方面，提供了一种信息抽取方法，包括：

获取待处理的数据内容；

将所述数据内容输入至预先训练完成的目标网络模型，得到输出结果；其中，所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型；所述样本集包括多个正样本和多个负样本，所述正样本为设置有标注信息的样本语句，所述负样本为未设置有所述标注信息的样本语句，所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述；

基于所述输出结果，确定所述数据内容中的目标实体和所述目标实体的实体描述。

根据本公开的另一方面，提供了一种信息抽取装置，包括：

获取模块，用于获取待处理的数据内容；

训练模块，用于将所述数据内容输入至预先训练完成的目标网络模型，得到输出结果；其中，所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型；所述样本集包括多个正样本和多个负样本，所述正样本为设置有标注信息的样本语句，所述负样本为未设置有所述标注信息的样本语句，所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述；

第一确定模块，用于基于所述输出结果，确定所述数据内容中的目标实体和所述目标实体的实体描述。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的信息抽取方法的步骤。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述的信息抽取方法的步骤。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述的信息抽取方法的步骤。

本方案中，先获取待处理的数据内容；将所述数据内容输入至预先训练完成的目标网络模型，得到输出结果；其中，该目标网络模型是基于样本集进行有监督训练所得到的序列标注模型；所述样本集包括多个正样本和多个负样本，所述正样本为设置有标注信息的样本语句，所述负样本为未设置有所述标注信息的样本语句，所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述；再基于所述输出结果，确定所述数据内容中的目标实体和所述目标实体的实体描述。可见，本方案为基于深度学习的有监督的抽取方案，可以解决相关技术中实体和相应的实体描述不符合预设的抽取规则，就无法被抽取的问题，能够适用于多样化的数据内容的信息抽取，适用范围大大提升。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开所提供的信息抽取方法的示意图；

图2是根据本公开所提供的信息抽取方法的另一示意图；

图3是本公开所提供的信息抽取方法的流程图；

图4是根据本公开所提供的信息抽取方法的另一示意图；

图5是本公开实施例所提供的信息抽取装置的结构示意图；

图6是本公开实施例所提供的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实体用来表示现实世界中客观存在具体的事物，实体描述用来反映实体的属性。一段文本中，可以存在实体以及该实体相应的实体描述。

抽取出的实体描述具有以下用途：

泛化出与与用户搜索的关键字相似的内容，扩充搜索的结构化表达；为实体提供结构化高概括性描述，增强百科的表达能力；通过相似描述对多个实体进行聚合，构建星图。

相关技术中，针对实体和相应实体描述的信息抽取方案均为无监督的方案，具体而言，无监督的方案是通过预先设定的抽取规则对文本中的实体和相应的实体描述进行抽取，这种实体描述抽取方案的效果波动较大，对于符合抽取规则的文本能够有效抽取，不符合抽取规则的文本则无法抽取。例如一段文本：“苹果是一种水果”，预先设定了规则：“是一种”之前的文本为实体，之后的文本为实体描述，则可以抽取出实体“苹果”，和实体描述“水果”。如果该文本是“苹果属于水果”，由于预先没有针对“属于”设定规则，虽然该段文本中存在实体和该实体的实体描述，但是无监督的方案不能抽取到该段文本中的实体和相应的实体描述。目前通过信息熵、模板、TF-IDF(TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency))、TruePIE(True Pattern-Based InformationExtraction，一种抽取实体属性和属性值方法)、聚类等方法进行的实体描述抽取均为无监督的抽取方法。

可见，相关技术中，文本中的实体和相应的实体描述不符合预设的抽取规则，就无法被抽取，无法适用于对多样化的文本内容的抽取，适应范围较小。当用户搜索一些十分冷门的问题，例如“天津的后花园”、“北辽末代皇帝”等，出现的搜索结果及数据源往往不够准确。由于无法对多样化的文本内容的进行有效的抽取，所以进一步扩大星图规模比较困难，并且挖掘出来的星图主题比较固定、语义表达的丰富度低。

为了解决相关技术无法适用于多样化的文本内容的抽取的问题，本公开实施例提供了一种信息抽取方法、装置、电子设备及存储介质。下面首先对本公开实施例所提供的一种信息抽取方法进行介绍。

本公开实施例所提供的一种信息抽取方法可以应用于电子设备。在具体应用中，该电子设备可以为服务器，也可以为终端设备。示例性的，该终端设备可以是：智能手机、平板电脑、笔记本电脑等等。

具体而言，该信息抽取方法的执行主体可以为信息抽取装置。示例性的，当信息抽取方法应用于终端设备时，该信息抽取装置可以为运行于终端设备中的功能软件，例如：信息抽取客户端，当然，也可以为运行于终端设备的文本处理客户端中的插件。示例性的，当信息抽取方法应用于服务器时，该信息抽取装置可以为运行于服务器中的计算机程序，该计算机程序可以用于实现信息抽取等。

本公开实施例提供的一种信息抽取方法，可以包括如下步骤：

获取待处理的数据内容；

下面结合附图，对本公开实施例所提供的一种信息抽取方法进行介绍。

如图1所示，本公开实施例所提供的一种信息抽取方法，可以包括如下步骤：

S101，获取待处理的数据内容；

信息抽取方案所要抽取的对象一般是文本，因此，本公开实施例中获取的待处理数据内容可以为文本数据。并且，待处理的数据内容为任何存在信息抽取需求的数据内容，对于待处理的数据内容的具体文本结构，本公开实施例并不做限定。

其中，获取待处理的数据内容的具体方式可以存在多种。

示例性的，在一种实现方式中，所述获取待处理的数据内容可以包括：接收用户通过交互界面所输入的文本内容，作为待处理的数据内容。

示例性的，在另一种实现方式中，所述获取待处理的数据内容可以包括：接收用户通过交互界面所指定的数据源的访问地址，该数据源为包括文本内容的页面或网站等；基于所述访问地址，访问所述数据源，并从所述数据源中选取文本内容，作为待处理的数据内容。

示例性的，在另一种实现方式中，所述获取待处理的数据内容可以包括：通过爬虫程序，从预定的数据源中爬取数据内容，从而得到待处理的数据内容。

需要说明的是，上述的获取待处理的数据内容的具体方式仅仅作为示例，并不应该构成对本公开实施例的限定。并且，本公开的实施例中，所涉及到的待处理的数据内容的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

S102，将所述数据内容输入至预先训练完成的目标网络模型，得到输出结果；其中，所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型；所述样本集包括多个正样本和多个负样本，所述正样本为设置有标注信息的样本语句，所述负样本为未设置有所述标注信息的样本语句，所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述；

为了解决相关技术所存在的技术问题，本公开的实施例采用有监督的抽取方案，即预先通过有监督的深度学习方式，训练完成目标网络模型，进而，利用目标网络模型来对待处理的数据内容进行信息抽取。相对于相关技术中的无监督的方案而言，由于目标网络模型的训练过程，能够学习到属于实体或实体描述的任意内容所需符合的规律，以及关于实体和实体描述具有对应性时所需符合的规律，并且不受文本结构的影响，因此，采用有监督的抽取方案，可以适应于多样化的数据内容。

其中，目标网络模型为基于样本集进行有监督训练所得到的序列标注模型，通过该目标网络模型，可以对待处理的数据内容进行序列标注，得到输出结果。该输出结果可以为标注有目标实体和目标实体的实体描述的数据内容。也就是说，通过该目标网络模型可以为待处理的数据内容中的各个字符打上标签信息，通过该标签信息可以识别出哪些是实体，以及哪些是实体描述，以及实体描述对应于哪些实体。为了较好的准确率和训练速度，所述目标网络模型可以是基于预训练模型所训练得到的模型，当然，并不局限于此。

另外，样本集中包括多个正样本和多个负样本，正样本和负样本均为样本语句，也就是，样本集中包括有多个样本语句，每一样本语句为正样本或负样本。具体而言：正样本为设置有标注信息的样本语句，而负样本为未设置有标注信息的样本语句。其中，标注信息用于表征语句中存在的实体以及所存在实体的实体描述。为了方案清楚以及布局清晰，下文介绍任一语句中存在的实体以及所存在实体的实体描述的确定方式。通过按照该任一语句中存在的实体以及所存在实体的实体描述的确定方式，可以分析出样本语句中存在的实体以及所存在实体的实体描述，从而基于分析出的内容，将样本语句标注为正样本。

需要说明的是，若样本语句的针对实体和实体描述的内容设定为空，则可以作为负样本，或者，样本语句中不包含实体和描述内容的，也可以作为负样本。

为了方便理解，下面示例性介绍一种列表：spo_list，该列表中的内容可以是正样本中的标注信息，未设置有标注信息的负样本的列表内容为空：

例如，正样本：{"text":"北极熊(拉丁学名：Ursusmaritimus)，是熊科熊属的一种动物，是世界上最大的陆地食肉动物，又名白熊","spo_list":[{"predicate":"描述","subject":[0,3],"object":[26,35]},{"predicate":"描述","subject":[0,3],"object":[37,49]},{"predicate":"描述","subject":[0,3],"object":[51,54]}]}

其中，实体为“北极熊”，对应的实体描述为“是熊科熊属的一种动物”，所位于的位置为[26,35]、“是世界上最大的陆地食肉动物”，所位于的位置为[37,49]、“又名白熊”，所位于的位置为[51,54]。

负样本：{"text":"平田的世界，搞笑漫画日和又名噱头漫画日和，作者是増田幸助","spo_list":[]}

负样本中未设置有所述标注信息的语句。

其中，subject表示实体所位于的位置，object表示实体描述所位于的位置。上述的spo_list的形式仅仅是一种方便展示的标签形式，即标注信息的展示形式。本方案不对样本语句中的实体和实体描述以及对应关系的具体标注形式进行限定。示例性的：可以通过对实体标注方式BIO(B-begin，I-inside，O-outside)进行改进，形成能够标注出实体和相应实体描述的标注信息，例如：标注信息可以为：B-n、X-n、D-n和O，其中，B-n表示第n个实体的开头部分，X-n表示第n个实体的其余部分内容，D-n表示第n个实体的实体描述，O表示非实体和非实体描述，n的取值范围可以为[0,∞)，这样，该标注信息能够表征出语句中存在的实体和所存在实体的实体描述。

上述正样本与负样本用于对网络模型进行有监督训练，该目标网络模型是基于预训练模型所训练得到的模型。任一目标网络模型的训练过程可以包括：

将样本集的正样本和负样本输入初始网络模型，得到网络模型针对预定样本集处理的输出结果；基于输出结果和样本集的标定结果，确定损失值；若损失值小于预定阈值，则认为网络模型收敛，得到训练完成的目标网络模型；否则，调整训练中的初始网络模型的模型参数，继续进行训练。

在训练好之后，将待处理的数据内容输入该目标网络模型，得到输出结果。

S103，基于所述输出结果，确定所述数据内容中的目标实体和所述目标实体的实体描述。

该输出结果可以为含有标注信息的语句。例如输入的语句为：“企鹅，是一种最古老的游禽，它很可能在地球穿上冰甲之前，就已经在南极安家落户”；

输出结果为“"text":"企鹅，是一种最古老的游禽，它很可能在地球穿上冰甲之前，就已经在南极安家落户","spo_list":[{"predicate":"描述","subject":[0,2],"object":[4,12]}]}”便可以基于该含有标注信息的语句得到该语句中的目标实体：“企鹅”和所述目标实体的实体描述：“是一种最古老的游禽”。

可选地，在本公开的另一实施例中，如图2所示，该信息抽取方法可以包括如下步骤：

S201，获取待处理的数据内容；

S202，将所述数据内容输入至预先训练完成的目标网络模型，得到输出结果；其中，所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型；所述样本集包括多个正样本和多个负样本，所述正样本为设置有标注信息的样本语句，所述负样本为未设置有所述标注信息的样本语句，所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述；

S203，基于所述输出结果，确定所述数据内容中的目标实体和所述目标实体的实体描述；

S204，将所述数据内容中的目标实体和所述目标实体的实体描述对应存储至预定数据库。

待处理的数据内容可以存在多个，针对每个待处理的数据内容均可以通过上述的S201-S203来抽取得到目标实体和目标实体的实体描述。为了为搜索应用、星图应用等各种应用提供数据基础，在针对每一待处理的数据内容，抽取得到目标实体和目标实体的实体描述后，可以将该待处理的数内容中的目标实体和目标实体的实体描述对应存储到预定数据库中。

步骤S201-S203与上述步骤S101-S103的内容相同，在此不再赘述。

本实施例中，通过将所述数据内容中的目标实体和所述目标实体的实体描述对应存储至预定数据库，使得形成关于实体和相应实体描述的查询词典，从而为搜索应用、星图应用等各种应用提供数据基础。

可选地，基于图2所示的实施例内容，在本公开的另一实施例中，所述数据内容为指定数据源中的文本内容，此时，该信息抽取方法还可以包括如下步骤A1-A4：

A1，若所述指定数据源中的文本内容发生更改，则从所述指定数据源中确定待分析内容，所述待分析内容为更改后的文本内容；

A2，若所述待分析内容对应的原始内容记录在文本词典中，则将所述待分析内容输入至所述目标网络模型，得到所述待分析内容对应的输出结果；其中，所述文本词典中记录有所述预定数据库所存储内容所属的数据内容；

A3，基于所述待分析内容对应的输出结果，确定所述待分析内容中存在的实体和所存在实体的实体描述；

A4，利用所述待分析内容中存在的实体和所存在实体的实体描述，对所述预定数据库进行更新。

为了更清楚的介绍上述本实施例所提供方案的数据库更新过程，下面结合图3进行示例性说明。如图3所示，当指定数据系统中词条文本发生了更改(即指定数据源中的文本内容发生更改)，可以从SPO(主语(subject)、谓语(predicate)、宾语(object))原始文本词典中查找词条文本对应的原始文本(即从文本词典中查找所述待分析内容对应的原始内容)；当命中时，利用SPO模型，即上述的目标网络模型，对词条文本进行信息抽取，得到词条文本中存在的实体和相应的实体描述，作为SPO关系；基于SPO关系，通过数据库管理模块来更新数据库，即更新上述的预定数据库。并且，维护SPO更新时间轴，该SPO更新时间轴记录有预定数据库更新的时间及该时间下更新的内容。下游的应用包括星图、针对实体属性和实体描述的应用，通过查询该SPO更新时间轴，检查应用时间轴管理模块所负责的各个应用的关系对词典、描述词典和属性值词典中是否有对应的文本需要更新，如果有，表明命中，则相应地更新下游应用，即对下游应用所利用的词典进行更新。下游应用可以根据更新后的词典中的实体描述，解耦原先的实体、或绑定新的实体。另外，下游应用可以通过预先设定SQL(Structured Query Language，结构化查询语言)指令，来对预定数据库进行查询，以查询预定数据库是否发生更新，从而基于查询到的更新后的内容，来对下游应用自身所利用的词典进行更新。

其中，判断是否命中，可以使用编辑距离、simhash算法计算词条文本与SPO词典的原始文本的文本相似度，当相似度达到阈值，则认为命中，本申请实施例对于判断是否命中的具体方法不做具体限定。

本公开实施例所提供的方案中，指定数据源中的文本内容发生更改，将所述待分析内容输入至所述目标网络模型，重新确定所述待分析内容中存在的实体和所存在实体的实体描述，并对预定数据库进行更新。可见，通过本方案，能够让下游应用所利用的词典及时更新，保证了实体和实体描述在下游应用中的时效性。

可选地，如图4所示，在本公开的另一实施例中，信息抽取方法，包括：

S401，获取待处理的数据内容；

S402，将所述数据内容输入至预先训练完成的目标网络模型，得到输出结果；其中，所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型；所述样本集包括多个正样本和多个负样本，所述正样本为设置有标注信息的样本语句，所述负样本为未设置有所述标注信息的样本语句，所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述；

S403，基于所述输出结果，确定所述数据内容中的目标实体和所述目标实体的实体描述；

S404，识别所述目标实体的实体描述，是否具有唯一性，其中，所述唯一性表征所述目标实体的实体描述仅用于描述所述目标实体；

S405，若具有唯一性，基于所述目标实体的实体描述，确定针对所述目标实体的搜索关键词。

步骤S401-S403与上述步骤S101-S103的内容相同，在此不再赘述。

在获得数据内容中的目标实体和目标实体的实体描述后，可以识别目标实体的实体描述是否具有唯一性。若具有唯一性，则可以将目标实体的实体描述应用于搜索场景，那么，基于所述目标实体的实体描述，确定针对所述目标实体的搜索关键词；若不具有唯一性，则可以将目标实体的实体描述应用于星图场景等其他需要实体描述的场景。

并且，示例性的，可以通过预先训练纯文本的二分类模型来识别目标实体的实体描述是否具有唯一性。其中，二分类模型可以为基于样本内容和样本内容的标签内容所训练得到的分类模型，其中，样本内容可以为实体描述，样本内容的标签内容可以用于表征实体描述是否具有唯一性的标签。

可选地，基于所述目标实体的实体描述，确定针对所述目标实体的搜索关键词，包括B1-B3：

B1，将所述目标实体的实体描述与各个历史搜索关键词进行匹配分析，得到与所述目标实体的实体描述相匹配的历史搜索关键词；

计算所述目标实体的实体描述与各个历史搜索关键词的相似度，将相似度大于预定阈值的历史搜索关键词，作为与所述目标实体的实体描述相匹配的历史搜索关键词。其中，各个历史搜索关键词可以为ElasticSearch(基于Lucene的搜索服务器，提供了一个分布式多用户能力的全文搜索引擎)所使用过的搜索关键词，也就是说，泛化结果确定过程中，可以使用ElasticSearch召回，召回结果即为与所述目标实体的实体描述相匹配的历史搜索关键词。

B2，基于所得到的历史搜索关键词，确定所述目标实体的实体描述的泛化结果；所述泛化结果为与所述实体描述所表征含义相同的内容；

在得到与所述目标实体的实体描述相匹配的历史搜索关键词后，可以直接将所得到的历史搜索关键词作为所述目标实体的实体描述的泛化结果；也可以基于预先训练相似度模型，来对所得到的历史搜索关键词进行再次过滤，即对召回结果使用相似度模型过滤，得到所述目标实体的实体描述的泛化结果。

B3，将所述泛化结果和所述目标实体的实体描述，确定为针对所述目标实体的搜索关键词。

这样，在搜索引擎中搜索这些关键词就可以得到与该关键词相关的目标实体和实体描述的内容。

本公开实施例所提供的方案中，将具有唯一性的实体描述进行泛化，即确定针对所述目标实体的搜索关键词。可见，通过本方案，覆盖了不常搜索的内容，可以让通过关键字搜索到的内容更加丰富，增加惊喜感。

可选地，在本公开的另一实施例中，任一语句中存在的实体以及所存在实体的实体描述的确定方式包括：

对该语句进行语义依存分析，得到分析结果；

基于分析结果所表征的语义关系，识别该语句中存在的实体和所存在实体的实体描述。

语义依存分析是分析句子中各语言单位之间的语义关联，并将语义关联以依存结构呈现。语义依存分析的目的即回答句子的“Who did what to whom when and where(谁在什么时间、什么地点对谁做了什么)”的问题。例如句子“张三昨天告诉李四一个秘密”，语义依存分析可以得出四个结论，即谁告诉了李四一个秘密，张三告诉谁一个秘密，张三什么时候告诉李四一个秘密，张三告诉李四什么。通过语义依存分析所得到的分析结果，可以获知该句子中各个语言单位以及各个语言单位之间的语义关联，这样，由于实体通常是主语(也可以称为主体)，而实体描述通常是宾语(也可以称为客体)，因此，可以基于分析结果所表征的语义关系，识别该语句中存在的实体和所存在实体的实体描述。

由于有些语句不符合语义依存关系，那么在通过语义依存分析方式进行分析时，存在分析失败的问题。为了解决该问题，可选地，在一种实现方式中，若对该语句分析失败，则可以基于预定的辅助识别方式，识别该语句中存在的实体和所存在实体的实体描述。示例性的，预定的辅助识别方式可以为通过预先设定的匹配模板或者人工标注方式，确定出样本语句中的实体和实体的实体描述。当然，若通过语义依存分析无法分析出某一语句存在的实体和所存在实体的实体描述，可以将该某一语句进行剔除，即不作为正样本。

本公开实施例所提供的方案中，对任一语句进行语义依存分析，得到分析结果；基于分析结果所表征的语义关系，识别该语句中存在的实体和所存在实体的实体描述；若对该语句分析失败，则基于预定的辅助识别方式，识别该语句中存在的实体和所存在实体的实体描述。可见，通过本方案可以更加方便地识别语句中存在的实体和所存在实体的实体描述。

基于相同的发明构思，根据上述信息抽取方法实施例，本公开实施例还提供了一种信息抽取装置，参见图5，可以包括以下模块：

获取模块510，用于获取待处理的数据内容；

训练模块520，用于将所述数据内容输入至预先训练完成的目标网络模型，得到输出结果；其中，所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型；所述样本集包括多个正样本和多个负样本，所述正样本为设置有标注信息的样本语句，所述负样本为未设置有所述标注信息的样本语句，所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述；

第一确定模块530，用于基于所述输出结果，确定所述数据内容中的目标实体和所述目标实体的实体描述。

可选地，任一语句中存在的实体以及所存在实体的实体描述的确定方式包括：

对该语句进行语义依存分析，得到分析结果；

可选地，所述确定方式还包括：

若对该语句分析失败，则基于预定的辅助识别方式，识别该语句中存在的实体和所存在实体的实体描述。

可选地，所述装置还包括：

识别模块，用于识别所述目标实体的实体描述，是否具有唯一性，其中，所述唯一性表征所述目标实体的实体描述仅用于描述所述目标实体；

第二确定模块，用于若具有唯一性，基于所述目标实体的实体描述，确定针对所述目标实体的搜索关键词。

可选地，所述第二确定模块，包括：

分析子模块，用于将所述目标实体的实体描述与各个历史搜索关键词进行匹配分析，得到与所述目标实体的实体描述相匹配的历史搜索关键词；

第一确定子模块，用于基于所得到的历史搜索关键词，确定所述目标实体的实体描述的泛化结果；所述泛化结果为与所述实体描述所表征含义相同的内容；

第二确定子模块，用于将所述泛化结果和所述目标实体的实体描述，确定为针对所述目标实体的搜索关键词。

可选地，所述装置还包括：

储存模块，用于将所述数据内容、所述数据内容中的目标实体和所述目标实体的实体描述对应存储至预定数据库。

可选地，所述数据内容为指定数据源中的文本内容；

所述装置还包括：

第三确定模块，用于若所述指定数据源中的文本内容发生更改，则从所述指定数据源中确定待分析内容；其中，所述待分析内容为更改后的文本内容；

输入模块，用于若所述待分析内容对应的原始内容记录在文本词典中，则将所述待分析内容输入至所述目标网络模型，得到所述待分析内容对应的输出结果；其中，所述文本词典中记录有所述预定数据库所存储内容所属的数据内容；

第四确定模块，用于基于所述待分析内容对应的输出结果，确定所述待分析内容中存在的实体和所存在实体的实体描述；

更新模块，用于利用所述待分析内容、所述待分析内容中存在的实体和所存在实体的实体描述，对所述预定数据库进行更新。

可选地，所述目标网络模型是基于预训练模型所训练得到的模型。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

具体而言，本公开提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例所述的信息抽取方法。

本公开提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述实施例所提供的信息抽取方法。

本公开提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述实施例所提供的信息抽取方法。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如信息抽取方法。例如，在一些实施例中，信息抽取方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的信息抽取方法一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行信息抽取方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种信息抽取方法，包括：

获取待处理的数据内容；

基于所述输出结果，确定所述数据内容中的目标实体和所述目标实体的实体描述；

识别所述目标实体的实体描述，是否具有唯一性，其中，所述唯一性表征所述目标实体的实体描述仅用于描述所述目标实体；

若具有唯一性，基于所述目标实体的实体描述，确定针对所述目标实体的搜索关键词；其中，基于所述目标实体的实体描述，确定针对所述目标实体的搜索关键词，包括：将所述目标实体的实体描述与各个历史搜索关键词进行匹配分析，得到与所述目标实体的实体描述相匹配的历史搜索关键词；基于所得到的历史搜索关键词，确定所述目标实体的实体描述的泛化结果；所述泛化结果为与所述实体描述所表征含义相同的内容；将所述泛化结果和所述目标实体的实体描述，确定为针对所述目标实体的搜索关键词。

2.根据权利要求1所述的方法，其特征在于，任一语句中存在的实体以及所存在实体的实体描述的确定方式包括：

对该语句进行语义依存分析，得到分析结果；

3.根据权利要求2所述的方法，其特征在于，所述确定方式还包括：

4.根据权利要求1所述的方法，还包括：

将所述数据内容中的目标实体和所述目标实体的实体描述对应存储至预定数据库。

5.根据权利要求4所述的方法，所述数据内容为指定数据源中的文本内容；

所述方法还包括：

若所述指定数据源中的文本内容发生更改，则从所述指定数据源中确定待分析内容；其中，所述待分析内容为更改后的文本内容；

若所述待分析内容对应的原始内容记录在文本词典中，则将所述待分析内容输入至所述目标网络模型，得到所述待分析内容对应的输出结果；其中，所述文本词典中记录有所述预定数据库所存储内容所属的数据内容；

基于所述待分析内容对应的输出结果，确定所述待分析内容中存在的实体和所存在实体的实体描述；

利用所述待分析内容中存在的实体和所存在实体的实体描述，对所述预定数据库进行更新。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述目标网络模型是基于预训练模型所训练得到的模型。

7.一种信息抽取装置，包括：

获取模块，用于获取待处理的数据内容；

第一确定模块，用于基于所述输出结果，确定所述数据内容中的目标实体和所述目标实体的实体描述；

第二确定模块，用于若具有唯一性，基于所述目标实体的实体描述，确定针对所述目标实体的搜索关键词；其中，第二确定模块，包括：分析子模块，用于将所述目标实体的实体描述与各个历史搜索关键词进行匹配分析，得到与所述目标实体的实体描述相匹配的历史搜索关键词；第一确定子模块，用于基于所得到的历史搜索关键词，确定所述目标实体的实体描述的泛化结果；所述泛化结果为与所述实体描述所表征含义相同的内容；第二确定子模块，用于将所述泛化结果和所述目标实体的实体描述，确定为针对所述目标实体的搜索关键词。

8.根据权利要求7所述的装置，其特征在于，任一语句中存在的实体以及所存在实体的实体描述的确定方式包括：

对该语句进行语义依存分析，得到分析结果；

9.根据权利要求8所述的装置，其特征在于，所述确定方式还包括：

10.根据权利要求7所述的装置，还包括：

11.根据权利要求10所述的装置，所述数据内容为指定数据源中的文本内容；

所述装置还包括：

12.根据权利要求7-11任一项所述的装置，其特征在于，所述目标网络模型是基于预训练模型所训练得到的模型。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。