CN111611490A

CN111611490A - 资源搜索方法、装置、设备及存储介质

Info

Publication number: CN111611490A
Application number: CN202010448846.7A
Authority: CN
Inventors: 张志伟; 王希爱; 郑仲奇
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-09-01

Abstract

本申请提供了一种资源搜索方法、装置、设备及存储介质，属于计算机技术领域。本申请提供了一种基于用户的历史点击行为搜索资源的方法，通过考虑到用户的历史兴趣，根据候选资源与用户历史点击过的资源之间的相似度，对候选资源的资源特征进行加权，以使得到的目标特征不仅蕴含候选资源本身的特征，还融合了用户对资源的偏好，那么由于目标特征的表达能力更强，因此利用目标特征能够更精准地预估出目标参数，由于利用了更加准确的目标参数确定搜索结果，从而显著提高了搜索结果的准确性。

Description

资源搜索方法、装置、设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种资源搜索方法、装置、设备及存储介质。

背景技术

随着计算机技术的发展，计算机可以提供资源搜索的服务，搜索的资源包括图像、视频、音频、资讯等等。例如，在短视频应用的场景中，当用户发起搜索请求时，计算机会响应用户的搜索请求，根据关键词搜索短视频，将搜索出的短视频提供给用户。

相关技术中，计算机通常会预先为数据库中的每个资源标注对应的关键词(比如标题、简介等)，并保存资源与关键词之间的对应关系。当计算机得到用户输入的关键词后，计算机会根据用户输入的关键词，在数据库中进行检索。如果数据库中资源的关键词与用户输入的关键词匹配，则计算机会将该资源确定为搜索结果，返回给用户。

采用上述方法时，仅考虑了资源是否与关键词匹配，导致计算机提供的搜索结果准确性差。

发明内容

本公开提供一种资源搜索方法、装置、设备及存储介质，以至少解决相关技术中搜索资源的场景下搜索结果准确性差的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种资源搜索方法，包括：

接收终端的搜索请求，所述搜索请求包括关键词；

分别获取所述关键词匹配的多个候选资源与历史资源之间的相似度，所述历史资源为所述终端所登录用户历史点击过的资源；

根据每个候选资源与所述历史资源之间的相似度，对所述多个候选资源的资源特征进行处理，得到多个候选资源的目标特征；

根据所述多个候选资源的目标特征，分别预测所述多个候选资源的目标参数，所述目标参数用于指示候选资源被所述用户触发目标行为的概率；

根据所述多个候选资源的目标参数，从所述多个候选资源中确定搜索结果。

可选地，所述分别获取所述关键词匹配的多个候选资源与历史资源之间的相似度，包括：

将所述历史资源的多类特征进行融合，得到第一融合特征；

对于所述多个候选资源中的每个候选资源，将所述候选资源的多类特征进行融合，得到第二融合特征，根据所述第一融合特征和所述第二融合特征，获取所述候选资源与所述历史资源之间的相似度。

可选地，所述将所述历史资源的多类特征进行融合，得到所述第一融合特征，包括：

对所述历史资源的标识进行词嵌入，得到第一嵌入特征；

对所述历史资源的内容进行特征提取，得到第一内容特征；

对所述第一嵌入特征和所述第一内容特征进行融合，得到所述第一融合特征。

可选地，所述将所述候选资源的多类特征进行融合，得到第二融合特征，包括：

对所述候选资源的标识进行词嵌入，得到第二嵌入特征；

对所述候选资源的内容进行特征提取，得到第二内容特征；

对所述第二嵌入特征和所述第二内容特征进行融合，得到所述第二融合特征。

可选地，所述根据所述多个候选资源的目标特征，分别预测所述多个候选资源的目标参数，包括：

对于所述多个候选资源中的每个候选资源，将所述候选资源的目标特征、所述关键词的目标特征和用户标识特征进行融合，得到所述候选资源的多模态特征，根据所述多模态特征，预测所述候选资源的目标参数。

可选地，所述将所述候选资源的目标特征、所述关键词的目标特征和用户标识特征进行融合之前，所述方法还包括：

获取所述关键词与历史词之间的相似度，所述历史词为所述用户搜索所述历史资源时历史输入的词；

根据所述关键词与所述历史词之间的相似度，对所述关键词的语义特征进行加权，得到所述关键词的目标特征。

可选地，所述获取所述关键词与历史词之间的相似度，包括：

将所述关键词的多类特征进行融合，得到第三融合特征；

将所述历史词的多类特征进行融合，得到第四融合特征；

根据所述第三融合特征和所述第四融合特征，获取所述关键词与所述历史词之间的相似度。

可选地，所述将所述关键词的多类特征进行融合，得到第三融合特征，包括：

对所述关键词的标识进行词嵌入，得到第三嵌入特征；

将所述关键词输入词向量模型，通过所述词向量模型对所述关键词进行处理，输出第三内容特征；

对所述第三嵌入特征和所述第三内容特征进行融合，得到所述第三融合特征。

可选地，所述将所述历史词的多类特征进行融合，得到第四融合特征，包括：

对所述历史词的标识进行词嵌入，得到第四嵌入特征；

将所述历史词输入词向量模型，通过所述词向量模型对所述历史词进行处理，输出第四内容特征；

对所述第四嵌入特征和所述第四内容特征进行融合，得到所述第四融合特征。

可选地，所述用户标识特征包括第五嵌入特征，所述将所述候选资源的目标特征、所述关键词的目标特征和用户标识特征进行融合之前，所述方法还包括：

对所述用户的用户标识进行词嵌入，得到所述第五嵌入特征。

可选地，所述根据所述多模态特征，预测所述候选资源的目标参数，包括：

将所述多模态特征输入预测模型，通过所述预测模型对所述多模态特征进行处理，输出所述候选资源的目标参数，所述预测模型用于根据资源的多模态特征预测资源的目标参数。

根据本公开实施例的第二方面，提供一种资源搜索装置，包括；

接收单元，被配置为执行接收终端的搜索请求，所述搜索请求包括关键词；

获取单元，被配置为执行分别获取所述关键词匹配的多个候选资源与历史资源之间的相似度，所述历史资源为所述终端所登录用户历史点击过的资源；

加权单元，被配置为执行根据每个候选资源与所述历史资源之间的相似度，对所述多个候选资源的资源特征进行处理，得到多个候选资源的目标特征；

预测单元，被配置为执行根据所述多个候选资源的目标特征，分别预测所述多个候选资源的目标参数，所述目标参数用于指示候选资源被所述用户触发目标行为的概率；

确定单元，被配置为执行根据所述多个候选资源的目标参数，从所述多个候选资源中确定搜索结果。

可选地，所述获取单元，被配置为执行将所述历史资源的多类特征进行融合，得到第一融合特征；对于所述多个候选资源中的每个候选资源，将所述候选资源的多类特征进行融合，得到第二融合特征，根据所述第一融合特征和所述第二融合特征，获取所述候选资源与所述历史资源之间的相似度。

可选地，所述获取单元，被配置为执行对所述历史资源的标识进行词嵌入，得到第一嵌入特征；对所述历史资源的内容进行特征提取，得到第一内容特征；对所述第一嵌入特征和所述第一内容特征进行融合，得到所述第一融合特征。

可选地，所述获取单元，被配置为执行对所述候选资源的标识进行词嵌入，得到第二嵌入特征；对所述候选资源的内容进行特征提取，得到第二内容特征；对所述第二嵌入特征和所述第二内容特征进行融合，得到所述第二融合特征。

可选地，所述预测单元，被配置为执行对于所述多个候选资源中的每个候选资源，将所述候选资源的目标特征、所述关键词的目标特征和用户标识特征进行融合，得到所述候选资源的多模态特征，根据所述多模态特征，预测所述候选资源的目标参数。

可选地，所述加权单元，还被配置为执行获取所述关键词与历史词之间的相似度，所述历史词为所述用户搜索所述历史资源时历史输入的词；根据所述关键词与所述历史词之间的相似度，对所述关键词的语义特征进行加权，得到所述关键词的目标特征。

可选地，所述获取单元，还被配置为执行将所述关键词的多类特征进行融合，得到第三融合特征；将所述历史词的多类特征进行融合，得到第四融合特征；根据所述第三融合特征和所述第四融合特征，获取所述关键词与所述历史词之间的相似度。

可选地，所述获取单元，被配置为执行对所述关键词的标识进行词嵌入，得到第三嵌入特征；将所述关键词输入词向量模型，通过所述词向量模型对所述关键词进行处理，输出第三内容特征；对所述第三嵌入特征和所述第三内容特征进行融合，得到所述第三融合特征。

可选地，所述获取单元，被配置为执行对所述历史词的标识进行词嵌入，得到第四嵌入特征；将所述历史词输入词向量模型，通过所述词向量模型对所述历史词进行处理，输出第四内容特征；对所述第四嵌入特征和所述第四内容特征进行融合，得到所述第四融合特征。

可选地，所述用户标识特征包括第五嵌入特征，所述获取单元，还被配置为执行对所述用户的用户标识进行词嵌入，得到所述第五嵌入特征。

可选地，所述预测单元，被配置为执行将所述多模态特征输入预测模型，通过所述预测模型对所述多模态特征进行处理，输出所述候选资源的目标参数，所述预测模型用于根据资源的多模态特征预测资源的目标参数。

根据本公开实施例的第三方面，提供一种电子设备，包括：

一个或多个处理器；

用于存储所述处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行所述指令，以实现上述资源搜索方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行上述资源搜索方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括一条或多条指令，所述一条或多条指令由电子设备的处理器执行时，使得所述电子设备能够执行上述资源搜索方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本实施例提供了一种基于用户的历史点击行为搜索资源的方法，通过考虑到用户的历史兴趣，根据候选资源与用户历史点击过的资源之间的相似度，对候选资源的资源特征进行加权，以使得到的目标特征不仅蕴含候选资源本身的特征，还融合了用户对资源的偏好，那么由于目标特征的表达能力更强，因此利用目标特征能够更精准地预估出目标参数，由于利用了更加准确的目标参数确定搜索结果，从而显著提高了搜索结果的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种图像的示意图；

图2是根据一示例性实施例示出的一种多媒体资源搜索方法的实施环境示意图；

图3是根据一示例性实施例示出的一种资源搜索方法的流程图；

图4是根据一示例性实施例示出的一种资源搜索方法的流程图；

图5是根据一示例性实施例示出的一种用于预测目标参数的端到端模型的架构图；

图6是根据一示例性实施例示出的一种资源搜索装置的框图；

图7是根据一示例性实施例示出的一种终端的框图；

图8是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息(如点击历史记录)可以为经用户授权或者经过各方充分授权的信息。

本申请实施例提供的资源搜索方法能够应用在基于深度学习技术搜索资源的场景，下面对应用场景进行简单的介绍。

近来，深度学习在视频图像、语音识别、自然语言处理等相关领域得到了广泛应用。由于其超强的拟合能力以及端到端的全局优化能力，使得深度学习在多媒体内容理解这个场景中大放异彩。目前基于深度学习的图像、视频分类检测任务在某些场景中已经超过了人的能力，在语音识别的领域，深度学习算法更是可以完成精准的声音到文字的转化。

虽然深度学习的算法在多媒体领域取得了突破性的进展，但是由于其求解的领域相对固定，问题定义相对清楚，所以可以取得不错的效果，但是直接将上面的算法结果应用到搜索领域时就会捉襟见肘。

以图1为例，图1包括两个图像，一个图像是图1中的(a)，另一个图像是图1中的(b)。在搜索图像的场景下，当用户输入关键词“猫”时，图像分类网络大都可以将图1中的(a)和图1中的(b)的内容识别成【猫】，换句话说，图1所示的两个图像都可以作为“猫”的候选结果，但是很明显绝大多数人会更偏爱图1中的(a)，显然将图1中的(a)作为搜索结果比将图1中的(b)作为搜索结果更加准确。

同时不同的用户群体在使用相同的关键词在搜索系统中进行搜索时，由于用户自身的一些因素可能对相同的内容会产生不同的行为。所以在对<userid，query，photoid，click>进行预估时，需要综合考虑用户历史已经点击过的数据，通过用户对用户历史兴趣进行建模，这样才能对点击行为进行精准地预估。

有鉴于此，本申请的一些实施例提供了一种基于历史观看数据的点击率预估方法，该方法适于应用在搜索的场景，例如应用在图片检索、视频搜索、歌曲搜索、网页搜索以及其他需要搜索多媒体资源的场景中，利用该方法能极大地提升搜索结果的准确性，保证搜索结果满足用户的偏好。

以下，对本公开实施例的硬件环境进行示例性说明。

图2是根据一示例性实施例示出的一种多媒体资源搜索方法的实施环境示意图，参见图2，在该实施环境中可以包括至少一个终端101和服务器102，下面进行详述：

该至少一个终端101安装和运行有支持搜索功能的应用程序，该应用程序可以是浏览器、社交应用、直播应用、购物应用或者支付应用中至少一种，本公开实施例不对应用程序的种类进行具体限定。

该服务器102可以包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种，服务器102用于为支持搜索功能的应用程序提供后台服务。可选地，服务器102可以承担主要计算工作，至少一个终端101承担次要计算工作；或者，服务器102可以承担次要计算工作，至少一个终端101承担主要计算工作；或者，至少一个终端101和服务器102之间采用分布式计算架构进行协同计算。

该至少一个终端101和服务器102之间可以通过有线网络或者无线网络相连。

在一个示例性场景中，用户可以在该至少一个终端101中任一终端上启动应用程序，在该应用程序可以显示携带搜索框的用户界面，用户在搜索框中输入待搜索的关键词，当终端检测到用户对搜索选项的触发操作时，终端生成携带该关键词的搜索请求，向服务器102发送该搜索请求。服务器102接收终端的搜索请求，基于本公开实施例提供的多媒体资源搜索方法，生成搜索结果，向终端发送该搜索结果，在下述实施例中将对上述多媒体资源搜索方法进行详述。

至少一个终端101中各个终端上安装的应用程序可以是相同的，或者为不同操作系统平台上同一类型的应用程序，各个终端的设备类型可以相同也可以不同，该设备类型可以包括：智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机或者台式计算机中的至少一种。以下实施例，以终端包括智能手机来举例说明。

本领域技术人员可以知晓，上述各个终端的数量可以仅为一个，也可以为几十个或几百个，或者更多数量，本公开实施例不对至少一个终端101的数量和设备类型进行具体限定。

图3是根据一示例性实施例示出的一种资源搜索方法的流程图，如图3所示，该方法用于电子设备中，包括以下步骤。

在步骤S21中，电子设备接收终端的搜索请求，搜索请求包括关键词。

在步骤S22中，电子设备分别获取关键词匹配的多个候选资源与历史资源之间的相似度，历史资源为终端所登录用户历史点击过的资源。

在步骤S23中，电子设备根据每个候选资源与历史资源之间的相似度，对多个候选资源的资源特征进行处理，得到多个候选资源的目标特征。

在步骤S24中，电子设备根据多个候选资源的目标特征，分别预测多个候选资源的目标参数，目标参数用于指示候选资源被用户触发目标行为的概率。

在步骤S25中，电子设备根据多个候选资源的目标参数，从多个候选资源中确定搜索结果。

可选地，分别获取关键词匹配的多个候选资源与历史资源之间的相似度，包括：

将历史资源的多类特征进行融合，得到第一融合特征；

对于多个候选资源中的每个候选资源，将候选资源的多类特征进行融合，得到第二融合特征，根据第一融合特征和第二融合特征，获取候选资源与历史资源之间的相似度。

通过将历史资源的多类特征进行融合，由于融合后的特征的表达能力更强，因此根据融合后的特征确定候选资源与历史资源之间的相似度，有助于提升相似度的准确性。

可选地，将历史资源的多类特征进行融合，得到第一融合特征，包括：

对历史资源的标识进行词嵌入，得到第一嵌入特征；

对历史资源的内容进行特征提取，得到第一内容特征；

对第一嵌入特征和第一内容特征进行融合，得到第一融合特征。

通过将历史资源的词嵌入的特征和内容特征进行融合，使得融合后的特征既能够表达历史资源在标识方面的特征，又能表达历史资源在内容方面的特征，因此融合后的特征的表达能力更强，因此根据融合后的特征确定候选资源与历史资源之间的相似度，有助于提升相似度的准确性。

可选地，将候选资源的多类特征进行融合，得到第二融合特征，包括：

对候选资源的标识进行词嵌入，得到第二嵌入特征；

对候选资源的内容进行特征提取，得到第二内容特征；

对第二嵌入特征和第二内容特征进行融合，得到第二融合特征。

通过将候选资源的词嵌入的特征和内容特征进行融合，使得融合后的特征既能够表达候选资源在标识方面的特征，又能表达候选资源在内容方面的特征，因此融合后的特征对候选资源的表达能力更强，因此根据融合后的特征确定候选资源与历史资源之间的相似度，有助于提升相似度的准确性。

可选地，根据多个候选资源的目标特征，分别预测多个候选资源的目标参数，包括：

对于多个候选资源中的每个候选资源，将候选资源的目标特征、关键词的目标特征和用户标识特征进行融合，得到候选资源的多模态特征，根据多模态特征，预测候选资源的目标参数。

通过将资源的特征、关键词的特征和用户标识特征融合，使得融合后的特征既能够表达候选资源在多个模态的特征，因此融合后的特征对候选资源的表达能力更强，因此根据融合后的特征预测候选资源的目标参数，有助于提升目标参数的准确性。

可选地，将候选资源的目标特征、关键词的目标特征和用户标识特征进行融合之前，方法还包括：

获取关键词与历史词之间的相似度，历史词为用户搜索历史资源时历史输入的词；

根据关键词与历史词之间的相似度，对关键词的语义特征进行加权，得到关键词的目标特征。

通过根据关键词与历史词之间的相似度，对关键词的语义特征进行加权，使得与历史词相似的关键词的语义特征的权重得以放大，因此有助于提升多模态特征的表达能力，进而提升目标参数的准确性。

可选地，获取关键词与历史词之间的相似度，包括：

将关键词的多类特征进行融合，得到第三融合特征；

将历史词的多类特征进行融合，得到第四融合特征；

根据第三融合特征和第四融合特征，获取关键词与历史词之间的相似度。

通过将关键词和历史词的多类特征分别进行融合，由于融合后的特征的表达能力更强，因此根据融合后的特征确定关键词与历史词之间的相似度，有助于提升相似度的准确性。

可选地，将关键词的多类特征进行融合，得到第三融合特征，包括：

对关键词的标识进行词嵌入，得到第三嵌入特征；

将关键词输入词向量模型，通过词向量模型对关键词进行处理，输出第三内容特征；

对第三嵌入特征和第三内容特征进行融合，得到第三融合特征。

通过将关键词的词嵌入的特征和内容特征进行融合，使得融合后的特征既能够表达关键词在标识方面的特征，又能表达关键词在内容方面的特征，因此融合后的特征的表达能力更强，因此根据融合后的特征确定候选资源与关键词之间的相似度，有助于提升相似度的准确性。

可选地，将历史词的多类特征进行融合，得到第四融合特征，包括：

对历史词的标识进行词嵌入，得到第四嵌入特征；

将历史词输入词向量模型，通过词向量模型对历史词进行处理，输出第四内容特征；

对第四嵌入特征和第四内容特征进行融合，得到第四融合特征。

通过将历史词的词嵌入的特征和内容特征进行融合，使得融合后的特征既能够表达历史词在标识方面的特征，又能表达历史词在内容方面的特征，因此融合后的特征对历史词的表达能力更强，因此根据融合后的特征确定历史词与历史资源之间的相似度，有助于提升相似度的准确性。

可选地，用户标识特征包括第五嵌入特征，将候选资源的目标特征、关键词的目标特征和用户标识特征进行融合之前，方法还包括：

对用户的用户标识进行词嵌入，得到第五嵌入特征。

通过采用词嵌入的方式提取用户标识对应的特征，有助于提升用户标识特征的准确性。

可选地，根据多模态特征，预测候选资源的目标参数，包括：

将多模态特征输入预测模型，通过预测模型对多模态特征进行处理，输出候选资源的目标参数，预测模型用于根据资源的多模态特征预测资源的目标参数。

通过使用人工智能技术，利用预测模型来预测资源的目标参数，由于预测模型能够通过样本自动化地学习出特征和目标参数之间的映射关系，因此有助于提升得到的目标参数的准确性。

图4是根据一示例性实施例示出的一种资源搜索方法的流程图，如图4所示，该方法的交互主体包括终端和服务器，终端例如是图2所示实施环境中的终端101，服务器例如是图2所示实施环境中的服务器102。该方法包括以下步骤。

在步骤S30中，终端向服务器发送搜索请求。

搜索请求包括关键词。搜索请求用于指示根据关键词搜索资源。如何触发搜索请求包括多种实现方式。例如，用户可以在终端上启动应用程序，在该应用程序中可以显示用户界面，该用户界面可以是用于提供搜索功能的搜索界面，也可以是应用程序的首页，在该用户界面中可以包括搜索框和搜索选项，搜索选项可以位于搜索框的附近，用户可以通过点击搜索框，在搜索框中输入关键词，具体地，用户可以通过屏幕键盘直接输入文本形式的关键词，用户也可以输入语音形式的关键词，再由终端将语音形式智能转换为文本形式，当终端检测到用户对搜索选项的触发操作时，终端生成携带该关键词的搜索请求，向服务器发送该搜索请求。

关键词是指用户在搜索框中输入的词，关键词可称为查询(query)。例如，关键词是“猫”、“XX节目”等。关键词中可以包括文本、数字、字母、特殊符号等，本公开实施例不对关键词的内容进行具体限定。

在步骤S31中，服务器接收终端的搜索请求，服务器获取关键词匹配的多个候选资源。

服务器解析该搜索请求，得到搜索请求携带的关键词，根据关键词确定多个候选资源。

候选资源是与关键词匹配的资源。例如，候选资源的名称、身份标识(Identity，ID)、作者、标签、上传时间中的至少一项和关键词相同。可选地，候选资源是预先保存的资源，服务器通过访问数据库，得到数据库中保存的资源。或者，候选资源是实时录制的资源，比如是当前直播的视频。候选资源的类型包括多种情况，例如，候选资源是多媒体资源，比如说，候选资源包括文本、视频、音频、图像或者网页中的至少一项。

如何获取候选资源包括多种实现方式。可选地，如果搜索请求中指定了搜索范围，那么服务器可以从各个数据库中筛选得到符合搜索范围的候选资源。例如搜索请求指定搜索视频，那么服务器可以将视频数据库中预存的所有视频确定为该多个候选资源。例如，搜索请求指定搜索图片，那么服务器可以将图片数据库中预存的所有图片确定为该多个候选资源，又比如搜索请求指定搜索某一历史时间点之前的资源，那么服务器可以将各个数据库中存储时刻位于该历史时间点之前的资源确定为该多个候选资源。

在步骤S32中，服务器获取历史资源，历史资源为终端所登录用户历史点击过的资源。

用户对历史资源存在历史点击行为。例如，在搜索视频的场景下，历史资源是用户历史点击过的视频，即用户历史观看的视频。又如，在搜索图像的场景下，历史资源是用户历史点击过的图像。又如，历史资源是用户历史点击过的网页等。可选地，历史资源和候选资源的类型是相同的，例如历史资源和候选资源都是图像或都是视频。

如何获取历史资源包括多种实现方式。在一种可能的实现中，服务器获取用户的点击历史记录，服务器从点击历史记录中获取资源标识，将该资源标识对应的资源确定为历史资源。

点击历史记录用于指示一个用户对于一个资源是否存在点击行为。点击历史记录的数据形式可以是四元组的形式。点击历史记录包括用户标识、历史词、历史资源的标识和点击标识。用户标识可以是用户名、用户标识码、用户手机号或者用户邮箱中至少一项能够唯一标识某一用户的信息。历史词也可以称为历史关键词，历史词是指用户搜索历史资源时历史输入的词，例如，历史词是用户在搜索过程中曾经在搜索框中输入过的关键词。历史资源的标识例如是历史资源的ID、历史资源的名称、历史资源的标题、历史资源的作者或历史资源的标签中的至少一项。例如，历史资源为图像，历史资源的标识为图像的ID，图像的ID例如记为photoid。点击标识用于标识在根据历史词搜索的过程中用户是否点击了资源标识对应的资源。例如，点击标识是一个二值化的数值。例如，当点击标识取值为1时，代表根据历史词搜索时用户点击了资源标识对应的资源，当点击标识取值为0时，代表根据历史词搜索时用户没有点击资源标识对应的资源。

以资源为图像为例，点击历史记录例如是<userid，query，photoid，click>，这样的点击历史记录用于表征userid对应的一个用户对photoid对应的一个图像是否存在点击行为。其中，userid表示用户标识，query表示历史词，photoid表示图像的标识。click表示点击标识。例如，点击历史记录为{A，猫，B，1}，这条点击历史记录表示用户A曾经使用猫为关键词搜索了图像，并在应用程序提供的搜索界面(也可称为搜索系统)中点击了图像B，图像B即为历史资源。

如何获取点击历史记录包括多种方式。例如，服务器解析搜索请求，得到搜索请求携带的用户标识，获取用户标识对应的用户使用日志，根据用户使用日志获取点击历史记录。例如，一般情况下，对于一个用户生成内容(User Generated Content，UGC)平台来说，可以从用户的使用日志分析出点击历史记录。

此外，可以根据用户标识(userid)分析出任意用户对应的点击历史。例如，通过以下公式(1)分析出点击历史。

<userid，query，photoid>＝{<userid，query，photoid，click>|click＝1}；公式(1)

在步骤S33中，服务器将历史资源的多类特征进行融合，得到第一融合特征。

第一融合特征可以视为同一个历史资源的多类特征的合成，或者说同一个历史资源的交叉特征(Feature Crosses)。

融合历史资源的哪些特征包括多种实现方式。在一些可能的实施例中，将历史资源的特征分为两大类，一类特征是历史资源的ID，另一类特征是历史资源的内容，通过将ID类的特征和内容类的特征进行融合，得出第一融合特征。如何融合ID类的特征和内容类的特征包括多种实现方式，以下通过S331至S333举例说明。

S331、服务器对历史资源的标识进行词嵌入，得到第一嵌入特征。

第一嵌入特征为历史资源的标识的词嵌入。第一嵌入特征的数据形式例如是向量或矩阵。可选地，第一嵌入特征包括历史资源的标识中每个词对应的词向量。其中，词向量是指一个能够表征某个词，并捕获该词的语义的向量。

词嵌入即Embedding，词嵌入是指将数据从文本形式转换成计算机可处理的向量形式的过程。如何进行词嵌入包括多种实现方式。例如，服务器将历史资源的标识输入预存的词向量模型，通过词向量模型对历史资源的标识进行嵌入处理，得到历史资源的标识的词向量，该历史资源的标识的词向量即为第一嵌入特征。换言之，该词向量模型能够通过词嵌入(word embedding)方式得到词向量，从而能够将历史资源的标识从文本形式转换成计算机可处理的向量形式，那么根据词向量形式的第一嵌入特征进行后续计算时，能够提升历史资源的标识的可处理性和表达能力。

以历史资源为图像(photo)为例，请参考图5，S331例如是：服务器对photoid进行Embedding，得到feature emb_photo。feature emb_photo表示图像的第一嵌入特征。featureemb_photo对应于图5中的Embedding3。

其中，该词向量模型是一个可以提取文本特征的模型。例如，该词向量模型可以为中文词向量模型ChineseWord2Vector，也可以为外文词向量模型，根据资源的标识所属的语种不同，可以采用不同语种的词向量模型，本公开实施例不对词向量模型的种类进行具体限定，可选地，该词向量模型可以是与用于预测目标参数的预测模型同步训练得到的。

应理解，词向量模型的方式仅是可选方式。在一些实施例中，服务器可以不通过词向量模型提取ID类的特征，而是通过对历史资源的标识进行独热(one-hot)编码，得到第一嵌入特征。

S332、服务器对历史资源的内容进行特征提取，得到第一内容特征。

历史资源的内容可以包括多种情况。例如，历史资源是用户历史点击过的视频，历史资源的内容是视频本身、视频中的一帧或多帧图像或者视频摘要中的任一项或多项。其中，视频中的图像例如是视频的关键帧、视频的首帧或视频的封面。又如，历史资源包括用户历史点击过的图像，历史资源的内容是图像本身或图像中的关键区域。又如，历史资源是用户点击过的网页或文本，历史资源的内容是网页或文本包含的字符串。

第一内容特征是指历史资源的内容的特征。例如，历史资源是用户历史点击过的图像，第一内容特征是该图像的特征图。又如，历史资源是用户历史点击过的视频，第一内容特征包括视频中图像的特征图。又如，历史资源是用户历史点击过的文本，第一内容特征是文本的语义表示向量。

如何提取历史资源的内容特征包括多种实现方式。可选地，使用卷积神经网络提取第一内容特征。例如，历史资源包括用户历史点击过的图像，服务器将图像输入卷积神经网络，通过卷积神经网络对图像进行处理，输出第一内容特征。例如，请参考图5，将photo输入卷积神经网络后，得到第一内容特征。

具体地，卷积神经网络(Convolutional Neural Networks，CNN)包括至少一个卷积层，该至少一个卷积层中相邻的卷积层串联连接，也即是说，任一卷积层的输出图作为该卷积层的下一卷积层的输入图。通过至少一个卷积层依次进行卷积处理，将最后一个卷积层的输出图获取为第一内容特征。通过采用卷积神经网络进行特征提取，能够通过多次卷积，实现特征的线性映射以及非线性映射，因此得出的第一内容特征的表达能力更强。

应理解，采用CNN提取内容特征仅是举例说明，在一些实施例中，服务器可以不通过CNN来获取资源的内容特征，而是可以针对不同类型的资源分别采用不同的模型来获取各自的内容特征，例如，采用CNN获取图片的内容特征，采用LSTM(Long Short-TermMemory，长短期记忆网络)获取视频的内容特征，采用VGG(Visual Geometry Group，视觉几何组)获取音频的内容特征等，从而能够对不同类型的资源进行有针对性的特征提取，能够提升内容特征的表达能力。

S333、服务器对第一嵌入特征和第一内容特征进行融合，得到第一融合特征。

如何实现特征融合包括多种实现方式。在一种可能的实现中，采用按位相乘的方式，融合第一嵌入特征和第一内容特征。具体地，对第一嵌入特征中每个位的取值与第一内容特征对应位的取值相乘，得到第一融合特征，第一融合特征中每个位的取值是第一嵌入特征中一个位的取值和第一内容特征中一个位的取值的乘积。以资源为图像(photo)为例，采用以下公式(2)得出第一融合特征。

feature_photo＝feature content_photo⊙feature emb_photo；公式(2)

其中，feature_photo表示第一融合特征，feature content_photo表示第一内容特征，feature emb_photo表示第一嵌入特征，⊙表示按位相乘。

例如，如果图像的第一内容特征和图像的第一嵌入特征的取值分别如下：

feature content_photo＝[1，2，3，4，5]

feature emb_photo＝[5，4，3，2，1]

则图像的第一融合特征的取值如下：

feature_photo＝[5，8，9，8，5]

通过将历史点击过的资源的ID类特征和历史点击过的资源的内容类特征融合为一体，使得第一融合特征既表达了历史资源的ID，又表达了历史资源的内容，因此融合特征的特征表达能力更强，因此根据第一融合特征进行后续计算时，有助于提高计算结果的准确性。

可选地，如果历史资源的数量为多个，即用户历史点击过多个资源，可以对多个历史资源的第一融合特征求平均，使用平均后的第一融合特征，计算历史资源和候选资源之间的相似度。例如，采用相同的网络结构，对具有相同具有历史点击行为的<userid，query，photoid>进行特征的提取。例如，采用以下公式(3)对一个列表中的所有特征求平均。

其中，avg-feature表示对于任意位置的特征j，求取所有特征对应位置的均值，K表示历史点击过的资源的列表长度。

在步骤S34中，对于多个候选资源中的每个候选资源，服务器将候选资源的多类特征进行融合，得到第二融合特征。

第二融合特征可以视为同一个候选资源的多类特征的合成，或者说同一个候选资源的交叉特征(Feature Crosses)。

融合候选资源的哪些特征包括多种实现方式。在一些可能的实施例中，将候选资源的特征分为两大类，一类特征是候选资源的ID，另一类特征是候选资源的内容，通过将ID类的特征和内容类的特征进行融合，得出第二融合特征。如何融合ID类的特征和内容类的特征包括多种实现方式，以下通过S341至S343举例说明。应理解，候选资源的特征提取过程与历史资源的特征提取过程同理，步骤S34未示出的细节可参考步骤S33，在步骤S34不再赘述。

S341、服务器对候选资源的标识进行词嵌入，得到第二嵌入特征。

候选资源的标识例如是候选资源的ID、候选资源的名称、候选资源的标题、候选资源的作者或候选资源的标签中的至少一项。例如，候选资源为图像，候选资源的标识为图像的ID，图像的ID例如记为photoid。

第二嵌入特征为候选资源的标识的词嵌入。第二嵌入特征的数据形式例如是向量或矩阵。可选地，第二嵌入特征包括候选资源的标识中每个词对应的词向量。

例如，服务器将候选资源的标识输入预存的词向量模型，通过词向量模型对候选资源的标识进行嵌入处理，得到候选资源的标识的词向量，该候选资源的标识的词向量即为第二嵌入特征。提取第二嵌入特征时使用的词向量模型和提取第一嵌入特征时使用的词向量模型可以是相同的。

S342、服务器对候选资源的内容进行特征提取，得到第二内容特征；

第二内容特征是指候选资源的内容的特征。例如，在搜索图像的场景下，第二内容特征是与关键词匹配的候选图像的特征图。又如，在搜索视频的场景下，第二内容特征包括关键词匹配的候选视频中多帧图像的特征图。又如，在搜索文本的场景下，第二内容特征是关键词匹配的文本的语义表示向量。

如何提取候选资源的内容特征包括多种实现方式。可选地，使用卷积神经网络提取第二内容特征。例如，候选资源包括关键词匹配的图像，服务器将候选图像输入卷积神经网络，通过卷积神经网络对候选图像进行处理，输出第二内容特征。

S343、服务器对第二嵌入特征和第二内容特征进行融合，得到第二融合特征。

S343与S333同理，可以采用按位相乘的方式，融合第二嵌入特征和第二内容特征。通过将候选资源的ID类特征和候选资源的内容类特征融合为一体，使得第二融合特征既表达了候选资源的ID，又表达了候选资源的语义，因此融合特征的特征表达能力更强，因此根据第二融合特征进行后续计算时，有助于提高计算结果的准确性。

需要说明的一点是，本实施例对步骤S32与步骤S34的先后顺序不做限定。在一些实施例中，步骤S32与步骤S34可以顺序执行。例如，可以先执行步骤S32，再执行步骤S34；也可以先执行步骤S34，再执行步骤S32。在另一些实施例中，步骤S32与步骤S34也可以并行执行，即，可以同时执行步骤S32以及步骤S34。

在步骤S35中，服务器根据第一融合特征和第二融合特征，获取候选资源与历史资源之间的相似度。

通过执行上述步骤，根据历史信息以及当前的信息，可以分成两种特征，一种特征是历史资源的融合特征，另一种特征是当前的候选资源的融合特征，可以分别记为feature_hist和feature_now，可计算两种特征之间的相似度，从而得到历史资源和候选资源之间的相似度。例如，计算第一融合特征和第二融合特征之间的相似度，根据第一融合特征和第二融合特征之间的相似度，获取候选资源与历史资源之间的相似度。其中，如何计算第一融合特征和第二融合特征之间的相似度包括多种方式，例如，计算第一融合特征和第二融合特征之间的余弦相似度或距离。例如，采用以下公式(4)计算相似度。

sim＝1-cosine(feature_hist，feature_now)；公式(4)

其中，sim表示候选资源与历史资源之间的相似度，cosine表示余弦相似度。

相对于历史资源单独的一类特征而言，通过将同一个历史资源的多类特征融合为一体，由于得出的第一融合特征蕴含了历史资源的不同类型的特征，因此第一融合特征的特征表达能力更强。相对于候选资源单独的一类特征而言，通过将同一个候选资源的多类特征融合为一体，由于得出的第二融合特征蕴含了候选资源的不同类型的特征，因此第二融合特征的特征表达能力更强。那么通过利用第一融合特征和第二融合特征来计算相似度，得出的相似度能够更有效表达出候选资源与历史资源之间的相似程度，从而提高相似度的准确性。

应理解，如何获取候选资源与历史资源之间的相似度包括多种实现方式，以上描述的仅是举例，可选地，不是根据候选资源的融合特征与历史资源的融合特征计算相似度，而是采用其他方式计算相似度。例如，根据候选资源的内容特征(如第二内容特征)与历史资源的内容特征(如第一内容特征)，计算候选资源与历史资源之间的相似度。又如，根据候选资源的标识的嵌入特征(如第二嵌入特征)与历史资源的标识的嵌入特征(如第一嵌入特征)，计算候选资源与历史资源之间的相似度。

在步骤S36中，服务器根据每个候选资源与历史资源之间的相似度，对多个候选资源的资源特征进行处理，得到多个候选资源的目标特征。

资源特征包括而不限于资源的嵌入特征、资源的内容特征或资源的融合特征中的至少一种。例如，候选资源的资源特征包括而不限于第二嵌入特征、第二内容特征或第二融合特征中的至少一种。

如何利用候选资源与历史资源之间的相似度进行处理包括多种方式。可选地，服务器根据每个候选资源与历史资源之间的相似度，对多个候选资源的资源特征进行加权，得到多个候选资源的目标特征，采用这种方式实现时，目标特征也可以称为加权特征。其中，如何对资源特征进行加权包括多种实现方式。例如，服务器将相似度与资源特征中的每个维度进行加权。例如，请参考下述公式(5)，服务器将相似度与资源特征中每个维度的取值进行相乘，得到目标特征，目标特征的维度数量和资源特征的维度数量相等，目标特征中每个维度的取值为资源特征中对应维度的取值和相似度的乘积。或者，服务器将相似度与资源特征中的部分维度进行加权。例如，请参考图5，得到历史的photo的融合特征和当前候选的photo的融合特征后，利用两个融合特征得出相似权重，再利用相似权重，对当前候选的photo的融合特征进行加权运算，得到目标特征。

其中，feature_new表示候选资源的目标特征，sim表示候选资源与历史资源之间的相似度，

表示相乘。

在一些实施例中，服务器也可以不采用加权的方式进行处理。在一种可能的实现中，服务器采用求和的方式进行处理，例如，服务器将候选资源与历史资源之间的相似度与候选资源的资源特征中每个维度的取值进行相加，得到候选资源的目标特征，目标特征中每个维度的取值是资源特征的维度的取值和相似度的和值。在另一种可能的实现中，服务器采用特征拼接的方式进行处理，例如，服务器对候选资源与历史资源之间的相似度与候选资源的资源特征进行拼接，得到候选资源的目标特征，目标特征包括候选资源的资源特征和相似度，换句话说，候选资源与历史资源之间的相似度是候选资源的一个新增加维度的特征值。

应理解，以上仅是以如何获取一个候选资源的目标特征的过程为例进行说明，服务器获取的候选资源的数量可以为多个，可以采用同理地方式，对多个候选资源中的每个候选资源分别计算目标特征。

在步骤S37中，服务器根据多个候选资源的目标特征，分别预测多个候选资源的目标参数。

目标参数用于指示候选资源被用户触发目标行为的概率。其中，目标行为是指在终端展示资源的过程中，能够通过终端对资源执行的任意行为。例如，目标行为包括而不限于点击行为、点赞行为、评论行为、关注行为、收藏行为、转发行为、访问候选资源关联的购买页面的行为中的任一项或多项。

例如，目标行为是点击行为，目标参数是点击率；又如，目标行为是访问候选资源关联的购买页面的行为，目标参数是转化率。

对于多个候选资源中的每个候选资源，服务器根据该候选资源的目标特征，预测该候选资源的目标参数。其中，在目标参数是点击率的情况下，预测得到的目标参数也称预估点击率。如何预测目标参数包括多种实现方式，以下通过S371至S372举例说明。

S371、对于多个候选资源中的每个候选资源，服务器将候选资源的目标特征、关键词的目标特征和用户标识特征进行融合，得到候选资源的多模态特征。

多模态特征的多模态例如是资源、关键词和用户标识。如何融合目标特征和用户标识特征包括多种方式。例如，服务器对候选资源的目标特征、关键词的目标特征和用户标识特征进行拼接，拼接结果为多模态特征，多模态特征的维度数量为候选资源的目标特征的维度、关键词的目标特征的维度和用户标识特征的维度之和。通过拼接的方式，能够尽可能保留目标特征和用户标识特征，避免在特征融合过程中反而损失掉一部分特征信息。

当然，拼接的方式仅是获得多模态特征的举例，在一些实施例中，服务器还可以通过这样的方式得到多模态特征：服务器对该候选资源的目标特征进行维度变换，得到维度变换后的目标特征，该维度变换后的候选资源的目标特征与关键词的目标特征具有相同的维度数量。之后，服务器将关键词的目标特征中各个元素分别与维度变换后的候选资源的目标特征中各个对应位置的元素相加，得到多模态特征，使得关键词的目标特征能够与候选资源的目标特征进行更加紧密的特征融合。

如何获取关键词的目标特征包括多种方式，例如，服务器获取关键词的语义特征。服务器获取关键词与历史词之间的相似度，服务器根据关键词与历史词之间的相似度，对关键词的语义特征进行加权，得到关键词的目标特征。

如何获取关键词与历史词之间的相似度包括多种方式，以下通过S3711至S3713举例说明。

S3711、服务器将关键词的多类特征进行融合，得到第三融合特征。

可选地，S3711包括以下步骤A至步骤C。

步骤A、服务器对关键词的标识进行词嵌入，得到第三嵌入特征；

第三嵌入特征为搜索请求携带的关键词的标识的词嵌入，即用户当前输入的query的标识的词嵌入。第三嵌入特征的数据形式例如是向量或矩阵。例如，第三嵌入特征包括当前输入的关键词的标识中每个词对应的词向量。例如，请参考图5，对query ID进行Embedding后，得到Embedding2。

步骤B、服务器将关键词输入词向量模型，通过词向量模型对关键词进行处理，输出第三内容特征；

第三内容特征是指搜索请求携带的关键词本身的特征，第三内容特征用于指示关键词的语义，例如，第三内容特征是关键词的语义表示向量。例如，请参考图5，对query输入Word2Vector后，得到的结果即为第三内容特征。

步骤C、服务器对第三嵌入特征和第三内容特征进行融合，得到第三融合特征。

例如，请参考图5，对Embedding2和Word2Vector的结果进行融合，得到的结果即为第三融合特征。通过将关键词的ID类特征和关键词的内容类特征融合为一体，使得第三融合特征既表达了候选资源的ID，又表达了候选资源的语义，因此融合特征的特征表达能力更强，因此根据第三融合特征进行后续计算时，有助于提高计算结果的准确性。

S3712、服务器将历史词的多类特征进行融合，得到第四融合特征；

可选地，S3711包括以下步骤a至步骤c。

步骤a、服务器对历史词的标识进行词嵌入，得到第四嵌入特征；

第四嵌入特征为历史词的标识的词嵌入。第四嵌入特征的数据形式例如是向量或矩阵。例如，第四嵌入特征包括历史词的标识中每个词对应的词向量。

又如，历史资源的标识为历史词的标识，历史词的标识记为queryid，其中，历史词例如是搜索出该历史资源时使用的关键词。

步骤b、服务器将历史词输入词向量模型，通过词向量模型对历史词进行处理，输出第四内容特征；

第四内容特征是指历史词本身的特征，第四内容特征用于指示历史词的语义，例如，第四内容特征是历史词的语义表示向量。

步骤c、服务器对第四嵌入特征和第四内容特征进行融合，得到第四融合特征。

通过将历史词的ID类特征和历史词的内容类特征融合为一体，使得历史词的融合特征既表达了历史词的ID，又表达了历史词的语义，因此融合特征的特征表达能力更强，因此根据历史词的融合特征进行后续计算时，有助于提高计算结果的准确性。

S3713、服务器根据第三融合特征和第四融合特征，获取关键词与历史词之间的相似度。

例如，服务器计算第三融合特征和第四融合特征之间的相似度(如余弦相似度)，根据第三融合特征和第四融合特征之间的相似度，获取关键词与历史词之间的相似度，这种实现方式与上述公式(4)同理，在此不做赘述。

用户标识特征是指用户的用户标识包含的特征。例如，用户标识特征为用户标识的词嵌入。例如，用户标识特征包括第五嵌入特征，服务器对用户的用户标识进行词嵌入，得到第五嵌入特征。

当然，如何获取多模态特征包括多种实现方式，S371仅是举例说明，可选地，通过其他方式获取候选资源的多模态特征。例如，S371替换为：对于多个候选资源中的每个候选资源，服务器将候选资源的目标特征、关键词的语义特征和用户标识特征进行融合，得到候选资源的多模态特征。又如，S371替换为：对于多个候选资源中的每个候选资源，服务器将候选资源的目标特征、关键词的语义特征进行融合，得到候选资源的多模态特征。又如，S371替换为：对于多个候选资源中的每个候选资源，服务器将候选资源的目标特征和用户标识特征进行融合，得到候选资源的多模态特征。

S372、服务器根据候选资源的多模态特征，预测候选资源的目标参数。

如何预测目标参数包括多种实现方式。可选地，服务器将多模态特征输入预测模型，通过预测模型对多模态特征进行处理，输出候选资源的目标参数。

预测模型用于根据资源的多模态特征预测资源的目标参数(Click ThroughRate，CTR)。具体地，预测模型用于预测用户在搜索某一关键词的条件下点击某一候选资源的概率，该预测模型可以是服务器预存在本地的。预测模型可以包括输入层、隐藏层和输出层，每个层可以包括若干个神经元，每个神经元可以对输入的多模态特征进行线性映射以及非线性映射后，得到目标参数。其中，神经元可以包括卷积核、高斯核、核结构、门结构、记忆单元中的至少一种。可选地，该预测模型可以是一个深度神经网络(DeepNeuralNetworks，DNN)，DNN中可以包括至少一个隐藏层和归一化层，该至少一个隐藏层中相邻的隐藏层串联连接，也即是说，任一隐藏层的输出图作为该隐藏层的下一隐藏层的输入图。对任一多模态特征而言，服务器可以将该多模态特征输入DNN中的至少一个隐藏层，通过该至少一个隐藏层对该多模态特征进行卷积处理，将最后一个隐藏层的输出图输入到归一化层中，通过该归一化层对最后一个隐藏层的输出图进行指数归一化(softmax)处理，得到该多模态特征所对应的候选资源的目标参数，重复执行上述步骤，直到得到各个候选资源的目标参数。在一些实施例中，除了DNN之外，该预测模型还可以是Wide&Deep网络(宽度和深度联合网络)、GBDT(Gradient Boosting Decision Tree，梯度提升决策树)、XGBoost(eXtreme Gradient Boosting，极限梯度提升)等，本申请实施例不对预测模型的类型进行具体限定。预测模型预先通过样本资源的多模态特征训练得到，该样本资源标注有目标参数，预测模型能够通过样本学习出多模态特征与目标参数之间的对应关系。

在一个示例性实施例中，参见图5，图5示出了预估目标参数的逻辑架构图，图5示出了一种端到端模型，该端到端模型可称为目标参数嵌入(Embedding)模型，该端到端模型是一种神经网络，该端到端模型是使用click作为监督信号进行模型训练得到的，该端到端模型可应用在搜索图像或搜索视频的场景。例如，用户触发了搜索请求，搜索请求中携带了关键词(Query)和用户标识(Userid)，服务器根据Userid，找到用户历史点击过的历史Photo和历史Photo的ID。服务器将历史Photo输入卷积神经网络，并将历史Photo的ID进行Embedding，将卷积神经网络的输出结果和Embedding的结果(Embedding3)进行融合，得到融合特征1(即第一融合特征)。并且，服务器搜索与Query匹配的Photo，将Photoo输入卷积神经网络，将Photo的ID进行Embedding，将卷积神经网络的输出结果和Embedding的结果进行融合，得到融合特征2(即第二融合特征)。之后，服务器计算融合特征1和融合特征2之间的相似度，以该相似度为权重，对融合特征2加权，得到Photo的目标特征。并且服务器将搜索请求携带的Query输入Word2Vec模型，通过Word2Vec模型对Query处理，并将Query的ID进行embedding，对Word2Vec模型的输出结果和embedding的结果(embedding2)进行融合，得到融合特征3(即第三融合特征)。并且，服务器将历史Photo对应的Query输入Word2Vec模型，通过Word2Vec模型对Query处理，并将Query的ID进行嵌入(embedding)，对Word2Vec模型的输出结果和embedding的结果(embedding2)进行融合，得到融合特征4(即第四融合特征)。之后，服务器计算融合特征3和融合特征4之间的相似度，以该相似度为权重，对融合特征3加权，得到Query的目标特征。另外，服务器还将user id进行嵌入(embedding)，得到Embedding1(即第五嵌入特征)。最后，服务器将Embedding1、Query的目标特征和Photo的目标特征融合为多模态特征，将多模态特征输入深度神经网络，通过深度神经网络对多模态特征处理，输出目标参数(Click)。

在步骤S38中，服务器根据多个候选资源的目标参数，从多个候选资源中确定搜索结果。

服务器根据多个候选资源的目标参数，选择目标参数满足条件的目标候选资源，将目标候选资源作为搜索结果。

目标参数满足条件包括多种情况。例如，该条件可以是候选资源的目标参数位于前预设位，或者，该条件还可以是候选资源的目标参数位于前预设比例，本公开实施例不对条件的内容进行具体限定。

在一些实施例中，服务器可以按照目标参数从大到小的顺序对该多个候选资源进行排序，将排序位于前预设位的候选资源封装为搜索结果，从而使得搜索结果中的候选资源的目标参数尽可能的高。可选地，由于一些候选资源(例如视频)通常所占空间较大，可以将排序位于前预设位的候选资源的标题、缩略图以及跳转链接封装为搜索结果，从而能够节约资源传输的消耗时长。

在一些实施例中，服务器可以按照目标参数从大到小的顺序对该多个候选资源进行排序，确定排序位于前预设比例的候选资源，将该排序位于前预设比例的候选资源中至少一个候选资源封装为搜索结果。在上述过程中，对于排序位于前预设比例的候选资源而言，服务器可以从其中任选至少一个候选资源，将该至少一个候选资源封装为搜索结果，从而能够避免搜索结果的过拟合现象，增加搜索结果的泛化度和随机性。在一些实施例中，由于一些候选资源(例如视频资源)通常所占空间较大，可以将该至少一个候选资源的标题、缩略图以及跳转链接封装为搜索结果，从而能够节约资源传输的消耗时长。

在步骤S39中，服务器向终端发送搜索结果。

当终端接收该搜索结果时，可以在应用程序所提供的用户界面中显示该搜索结果中各个资源，例如，该搜索结果的展示区域可以位于搜索框的下方。

在一些实施例中，若搜索结果中携带的是各资源的标题、缩略图以及跳转链接，那么终端可以在用户界面中展示各资源的标题、缩略图以及跳转链接，当检测到用户对任一资源的跳转链接的点击操作时，向服务器发送资源请求，该资源请求用于请求访问该资源，服务器响应于该资源请求，向终端下发该资源，当终端接收到该资源，终端可以在应用程序中显示该资源。

图6是根据一示例性实施例示出的一种资源搜索装置的框图。参照图6，该装置包括接收单元401，获取单元402，加权单元403，预测单元404和确定单元405。

接收单元401，被配置为执行接收终端的搜索请求，搜索请求包括关键词；

获取单元402，被配置为执行分别获取关键词匹配的多个候选资源与历史资源之间的相似度，历史资源为终端所登录用户历史点击过的资源；

加权单元403，被配置为执行根据每个候选资源与历史资源之间的相似度，对多个候选资源的资源特征进行处理，得到多个候选资源的目标特征；

预测单元404，被配置为执行根据多个候选资源的目标特征，分别预测多个候选资源的目标参数，目标参数用于指示候选资源被用户触发目标行为的概率；

确定单元405，被配置为执行根据多个候选资源的目标参数，从多个候选资源中确定搜索结果。

本实施例提供了一种基于用户的历史点击行为搜索资源的装置，通过考虑到用户的历史兴趣，根据候选资源与用户历史点击过的资源之间的相似度，对候选资源的资源特征进行加权，以使得到的目标特征不仅蕴含候选资源本身的特征，还融合了用户对资源的偏好，那么由于目标特征的表达能力更强，因此利用目标特征能够更精准地预估出目标参数，由于利用了更加准确的目标参数确定搜索结果，从而显著提高了搜索结果的准确性。

可选地，获取单元402，被配置为执行将历史资源的多类特征进行融合，得到第一融合特征；对于多个候选资源中的每个候选资源，将候选资源的多类特征进行融合，得到第二融合特征，根据第一融合特征和第二融合特征，获取候选资源与历史资源之间的相似度。

可选地，获取单元402，被配置为执行对历史资源的标识进行词嵌入，得到第一嵌入特征；对历史资源的内容进行特征提取，得到第一内容特征；对第一嵌入特征和第一内容特征进行融合，得到第一融合特征。

可选地，获取单元402，被配置为执行对候选资源的标识进行词嵌入，得到第二嵌入特征；对候选资源的内容进行特征提取，得到第二内容特征；对第二嵌入特征和第二内容特征进行融合，得到第二融合特征。

可选地，预测单元404，被配置为执行对于多个候选资源中的每个候选资源，将候选资源的目标特征、关键词的目标特征和用户标识特征进行融合，得到候选资源的多模态特征，根据多模态特征，预测候选资源的目标参数。

可选地，加权单元403，还被配置为执行获取关键词与历史词之间的相似度，历史词为用户搜索历史资源时历史输入的词；根据关键词与历史词之间的相似度，对关键词的语义特征进行加权，得到关键词的目标特征。

可选地，获取单元402，还被配置为执行将关键词的多类特征进行融合，得到第三融合特征；将历史词的多类特征进行融合，得到第四融合特征；根据第三融合特征和第四融合特征，获取关键词与历史词之间的相似度。

可选地，获取单元402，被配置为执行对关键词的标识进行词嵌入，得到第三嵌入特征；将关键词输入词向量模型，通过词向量模型对关键词进行处理，输出第三内容特征；对第三嵌入特征和第三内容特征进行融合，得到第三融合特征。

可选地，获取单元402，被配置为执行对历史词的标识进行词嵌入，得到第四嵌入特征；将历史词输入词向量模型，通过词向量模型对历史词进行处理，输出第四内容特征；对第四嵌入特征和第四内容特征进行融合，得到第四融合特征。

可选地，用户标识特征包括第五嵌入特征，获取单元402，还被配置为执行对用户的用户标识进行词嵌入，得到第五嵌入特征。

可选地，预测单元404，被配置为执行将多模态特征输入预测模型，通过预测模型对多模态特征进行处理，输出候选资源的目标参数，预测模型用于根据资源的多模态特征预测资源的目标参数。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

上述方法实施例中的电子设备可以实现为终端或服务器，例如，图7示出了本公开一个示例性实施例提供的终端500的结构框图。该终端500可以是：智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端500包括有：一个或多个处理器501和一个或多个存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本公开中方法实施例提供的资源搜索方法。

在一些实施例中，终端500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。

外围设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置终端500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在终端500的不同表面或呈折叠设计；在另一些实施例中，显示屏505可以是柔性显示屏，设置在终端500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位终端500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端500的侧边框和/或显示屏505的下层。当压力传感器513设置在终端500的侧边框时，可以检测用户对终端500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时，由处理器501根据用户对显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制显示屏505的显示亮度。具体地，当环境光强度较高时，调高显示屏505的显示亮度；当环境光强度较低时，调低显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时，由处理器501控制显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时，由处理器501控制显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对终端500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述方法实施例中的电子设备可以实现为服务器，例如，图8是本公开实施例提供的一种服务器的结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)601和一个或一个以上的存储器602，其中，所述存储器602中存储有至少一条指令，所述至少一条指令由所述处理器601加载并执行以实现上述各个方法实施例提供的资源搜索方法。当然，该服务器还可以具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由电子设备的处理器执行以完成上述资源搜索方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory，简称：ROM)、随机存取存储器(Random Access Memory，简称：RAM)、只读光盘(Compact Disc Read-Only Memory，简称：CD-ROM)、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种资源搜索方法，其特征在于，包括：

接收终端的搜索请求，所述搜索请求包括关键词；

2.根据权利要求1所述的资源搜索方法，其特征在于，所述分别获取所述关键词匹配的多个候选资源与历史资源之间的相似度，包括：

将所述历史资源的多类特征进行融合，得到第一融合特征；

3.根据权利要求2所述的资源搜索方法，其特征在于，所述将所述历史资源的多类特征进行融合，得到第一融合特征，包括：

对所述历史资源的标识进行词嵌入，得到第一嵌入特征；

对所述历史资源的内容进行特征提取，得到第一内容特征；

4.根据权利要求2所述的资源搜索方法，其特征在于，所述将所述候选资源的多类特征进行融合，得到第二融合特征，包括：

对所述候选资源的标识进行词嵌入，得到第二嵌入特征；

对所述候选资源的内容进行特征提取，得到第二内容特征；

5.根据权利要求1所述的资源搜索方法，其特征在于，所述根据所述多个候选资源的目标特征，分别预测所述多个候选资源的目标参数，包括：

6.根据权利要求5所述的资源搜索方法，其特征在于，所述将所述候选资源的目标特征、所述关键词的目标特征和用户标识特征进行融合之前，所述方法还包括：

7.根据权利要求6所述的资源搜索方法，其特征在于，所述获取所述关键词与历史词之间的相似度，包括：

将所述关键词的多类特征进行融合，得到第三融合特征；

将所述历史词的多类特征进行融合，得到第四融合特征；

8.一种资源搜索装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的资源搜索方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的资源搜索方法。