确定搜索结果的方法、装置、设备和计算机存储介质制造方法及图纸

技术编号:24206919 阅读:18 留言:0更新日期:2020-05-20 15:03
本申请公开了一种确定搜索结果的方法、装置、设备和计算机存储介质,涉及智能搜索领域。具体实现方案为:获取用户的当前query、用户在第一时长内的搜索历史信息、用户在第二时长内的搜索历史信息以及当前query的候选搜索结果,并输入搜索结果排序模型,依据对候选搜索结果的评分,确定当前query对应的搜索结果,第二时长大于第一时长;其中搜索结果排序模型对候选结果的评分依据当前query的向量表示和用户在第一时长内的搜索历史信息的向量表示的整合与候选搜索结果的向量表示之间的相似度,以及当前query的向量表示和用户在第二时长内的搜索历史信息的向量表示的整合与候选搜索结果的向量表示之间的相似度确定。

Methods, devices, devices and computer storage media for determining search results

【技术实现步骤摘要】
确定搜索结果的方法、装置、设备和计算机存储介质
本申请涉及计算机应用
,特别涉及智能搜索领域中确定搜索结果的方法、装置、设备和计算机存储介质。
技术介绍
近年来,为了给用户提供更加丰富的搜索结果以及更好的搜索体验,主流搜索引擎都为用户的搜索提供了相关实体的推荐。例如,当用户利用搜索引擎搜索关键词“芝加哥”时,在搜索结果页面中提供如图1中所示的相关实体推荐。图1中左侧部分显示“芝加哥”的文档搜索结果,右侧部分显示“芝加哥”的实体推荐结果(实体推荐结果也可以看做是一种搜索结果,是与输入搜索关键词相关的实体)。推荐诸如“旧金山湾区”、“伊利诺伊州”、“得克萨斯州”、“奥黑尔国际机场”、“密歇根湖”等等相关实体。以百度为例,相关实体推荐的结果展现在搜索结果页的右侧区域,当然,也可以展现在搜索结果页的其他区域,也可以多个类别的形式展现相关实体。然而,传统相关实体推荐仅仅考虑了用户当前的搜索关键词,对于同一个搜索关键词而言,针对所有用户进行相同的相关实体推荐。但这种情况无法解决具有歧义的搜索关键词的相关实体不准确的问题。例如,用户当前的搜索关键词是“芝加哥”,则无法获知用户指的是城市、电影还是歌剧,因此必然在推荐相关实体时不能准确体现用户需求。
技术实现思路
有鉴于此,本申请提供了一种确定搜索结果的方法、装置、设备和计算机存储介质,以便于向用户提供更准确体现用户需求的搜索结果。第一方面,本申请提供了一种确定搜索结果的方法,该方法包括:获取用户的当前query、所述用户在第一时长内的搜索历史信息、所述用户在第二时长内的搜索历史信息以及当前query的候选搜索结果,并输入搜索结果排序模型,依据所述搜索结果排序模型对所述候选搜索结果的评分,确定所述当前query对应的搜索结果,所述第二时长大于所述第一时长;其中所述搜索结果排序模型对所述候选结果的评分依据第一相似度和第二相似度确定,所述第一相似度为所述当前query的向量表示和所述用户在第一时长内的搜索历史信息的向量表示的整合与所述候选搜索结果的向量表示之间的相似度,所述第二相似度为所述当前query的向量表示和所述用户在第二时长内的搜索历史信息的向量表示的整合与所述候选搜索结果的向量表示之间的相似度。根据本申请一优选实施方式,所述用户在第一时长内的搜索历史信息包括:同一会话中在所述当前query之前的query序列和query序列中各query对应的被点击搜索结果;所述用户在第二时长内的搜索历史信息包括:所述用户在第二时长内搜索的query和点击的搜索结果。根据本申请一优选实施方式,所述用户在第一时长内的搜索历史信息的向量表示由以下方式得到:将所述query序列中各query的向量表示、所述各query对应的被点击搜索结果的向量表示采用注意力机制进行加权处理,得到所述用户在第一时长内的搜索历史信息的向量表示。根据本申请一优选实施方式,所述用户在第二时长内的搜索历史信息的向量表示由以下方式得到:获取用户在第二时长内搜索的query集合和点击的搜索结果集合;将所述query集合和搜索结果集合进行切词处理后求并集,得到词集合;对所述词集合使用句向量的分布词袋PV-DBOW进行编码处理,得到所述用户在第二时长内的搜索历史信息的向量表示。根据本申请一优选实施方式,所述候选搜索结果包括相关网页或相关实体;其中相关实体的向量表示为:所述相关实体的标识、名称以及实体描述的整合向量表示。根据本申请一优选实施方式,该方法还包括:在搜索结果页中展现所述当前query对应的搜索结果。第二方面,本申请提供了一种训练搜索结果排序模型的方法,该方法包括:利用搜索日志获取训练样本,所述训练样本包括:样本query、用户在输入样本query之前第一时长内的搜索历史信息、用户在输入样本query之前第二时长内的搜索历史信息、样本query对应的搜索结果以及搜索结果的被点击状况;利用所述训练样本训练排序模型,以达到预设的训练目标;其中所述排序模型的输入包括样本query、用户在输入样本query之前第一时长内的搜索历史信息、用户在输入样本query之前第二时长内的搜索历史信息以及样本query对应的搜索结果,所述排序模型的输出包括对各搜索结果的评分;所述排序模型对各搜索结果的评分依据第一相似度和第二相似度确定,所述第一相似度为所述样本query的向量表示和所述第一时长内的搜索历史信息的向量表示的整合与所述搜索结果的向量表示之间的相似度,所述第二相似度为所述样本query的向量表示和所述在第二时长内的搜索历史信息的向量表示的整合与所述搜索结果的向量表示之间的相似度;所述训练目标包括:最大化搜索结果被点击状况与搜索结果的评分之间的相关度;利用训练得到的排序模型,获取搜索结果排序模型。根据本申请一优选实施方式,所述用户在输入样本query之前第一时长内的搜索历史信息包括:同一会话中在所述样本query之前的query序列和query序列中各query对应的被点击搜索结果;所述用户在输入样本query之前第二时长内的搜索历史信息包括:所述用户在输入样本query之前第二时长内搜索的query和点击的搜索结果。根据本申请一优选实施方式,所述用户在输入样本query之前第一时长内的搜索历史信息的向量表示由以下方式得到:将所述query序列中各query的向量表示、所述各query对应的被点击搜索结果的向量表示采用注意力机制进行加权处理,得到所述用户在第一时长内的搜索历史信息的向量表示。根据本申请一优选实施方式,所述用户在输入样本query之前第二时长内的搜索历史信息的向量表示由以下方式得到:获取用户在输入样本query之前第二时长内搜索的query集合和点击的搜索结果集合;将所述query集合和搜索结果集合进行切词处理后求并集,得到词集合;对所述词集合使用句向量的分布词袋PV-DBOW进行编码处理,得到所述用户在输入样本query之前第二时长内的搜索历史信息的向量表示。根据本申请一优选实施方式,所述搜索结果包括相关网页或相关实体;其中相关实体的向量表示为:所述相关实体的标识、名称以及实体描述的整合向量表示。根据本申请一优选实施方式,所述搜索结果包括:第一类搜索结果和第二类搜索结果;所述排序模型包括:共享向量子模型、第一排序子模型和第二排序子模型;将所述样本query、用户在输入样本query之前第一时长内的搜索历史信息、用户在输入样本query之前第二时长内的搜索历史信息以及样本query对应的搜索结果输入所述共享向量子模型,得到所述共享向量子模型输出的所述样本query的向量表示和所述第一时长内的搜索历史信息的向量表示的整合,以及所述样本query的向量表示和所述在第二时长内的搜索历史信息的向量表示的整合;将所述共享向量子模型的输出以及样本query的第一类搜索结果输入本文档来自技高网...

【技术保护点】
1.一种确定搜索结果的方法,其特征在于,该方法包括:/n获取用户的当前query、所述用户在第一时长内的搜索历史信息、所述用户在第二时长内的搜索历史信息以及当前query的候选搜索结果,并输入搜索结果排序模型,依据所述搜索结果排序模型对所述候选搜索结果的评分,确定所述当前query对应的搜索结果,所述第二时长大于所述第一时长;/n其中所述搜索结果排序模型对所述候选结果的评分依据第一相似度和第二相似度确定,所述第一相似度为所述当前query的向量表示和所述用户在第一时长内的搜索历史信息的向量表示的整合与所述候选搜索结果的向量表示之间的相似度,所述第二相似度为所述当前query的向量表示和所述用户在第二时长内的搜索历史信息的向量表示的整合与所述候选搜索结果的向量表示之间的相似度。/n

【技术特征摘要】
1.一种确定搜索结果的方法,其特征在于,该方法包括:
获取用户的当前query、所述用户在第一时长内的搜索历史信息、所述用户在第二时长内的搜索历史信息以及当前query的候选搜索结果,并输入搜索结果排序模型,依据所述搜索结果排序模型对所述候选搜索结果的评分,确定所述当前query对应的搜索结果,所述第二时长大于所述第一时长;
其中所述搜索结果排序模型对所述候选结果的评分依据第一相似度和第二相似度确定,所述第一相似度为所述当前query的向量表示和所述用户在第一时长内的搜索历史信息的向量表示的整合与所述候选搜索结果的向量表示之间的相似度,所述第二相似度为所述当前query的向量表示和所述用户在第二时长内的搜索历史信息的向量表示的整合与所述候选搜索结果的向量表示之间的相似度。


2.根据权利要求1所述的方法,其特征在于,所述用户在第一时长内的搜索历史信息包括:同一会话中在所述当前query之前的query序列和query序列中各query对应的被点击搜索结果;
所述用户在第二时长内的搜索历史信息包括:所述用户在第二时长内搜索的query和点击的搜索结果。


3.根据权利要求2所述的方法,其特征在于,所述用户在第一时长内的搜索历史信息的向量表示由以下方式得到:
将所述query序列中各query的向量表示、所述各query对应的被点击搜索结果的向量表示采用注意力机制进行加权处理,得到所述用户在第一时长内的搜索历史信息的向量表示。


4.根据权利要求2所述的方法,其特征在于,所述用户在第二时长内的搜索历史信息的向量表示由以下方式得到:
获取用户在第二时长内搜索的query集合和点击的搜索结果集合;
将所述query集合和搜索结果集合进行切词处理后求并集,得到词集合;
对所述词集合使用句向量的分布词袋PV-DBOW进行编码处理,得到所述用户在第二时长内的搜索历史信息的向量表示。


5.根据权利要求1所述的方法,其特征在于,所述候选搜索结果包括相关网页或相关实体;
其中相关实体的向量表示为:所述相关实体的标识、名称以及实体描述的整合向量表示。


6.根据权利要求1或5所述的方法,其特征在于,该方法还包括:
在搜索结果页中展现所述当前query对应的搜索结果。


7.一种训练搜索结果排序模型的方法,其特征在于,该方法包括:
利用搜索日志获取训练样本,所述训练样本包括:样本query、用户在输入样本query之前第一时长内的搜索历史信息、用户在输入样本query之前第二时长内的搜索历史信息、样本query对应的搜索结果以及搜索结果的被点击状况;
利用所述训练样本训练排序模型,以达到预设的训练目标;其中所述排序模型的输入包括样本query、用户在输入样本query之前第一时长内的搜索历史信息、用户在输入样本query之前第二时长内的搜索历史信息以及样本query对应的搜索结果,所述排序模型的输出包括对各搜索结果的评分;所述排序模型对各搜索结果的评分依据第一相似度和第二相似度确定,所述第一相似度为所述样本query的向量表示和所述第一时长内的搜索历史信息的向量表示的整合与所述搜索结果的向量表示之间的相似度,所述第二相似度为所述样本query的向量表示和所述在第二时长内的搜索历史信息的向量表示的整合与所述搜索结果的向量表示之间的相似度;所述训练目标包括:最大化搜索结果被点击状况与搜索结果的评分之间的相关度;
利用训练得到的排序模型,获取搜索结果排序模型。


8.根据权利要求7所述的方法,其特征在于,所述用户在输入样本query之前第一时长内的搜索历史信息包括:同一会话中在所述样本query之前的query序列和query序列中各query对应的被点击搜索结果;
所述用户在输入样本query之前第二时长内的搜索历史信息包括:所述用户在输入样本query之前第二时长内搜索的query和点击的搜索结果。


9.根据权利要求8所述的方法,其特征在于,所述用户在输入样本query之前第一时长内的搜索历史信息的向量表示由以下方式得到:
将所述query序列中各query的向量表示、所述各query对应的被点击搜索结果的向量表示采用注意力机制进行加权处理,得到所述用户在第一时长内的搜索历史信息的向量表示。


10.根据权利要求8所述的方法,其特征在于,所述用户在输入样本query之前第二时长内的搜索历史信息的向量表示由以下方式得到:
获取用户在输入样本query之前第二时长内搜索的query集合和点击的搜索结果集合;
将所述query集合和搜索结果集合进行切词处理后求并集,得到词集合;
对所述词集合使用句向量的分布词袋PV-DBOW进行编码处理,得到所述用户在输入样本query之前第二时长内的搜索历史信息的向量表示。


11.根据权利要求7所述的方法,其特征在于,所述搜索结果包括相关网页或相关实体;
其中相关实体的向量表示为:所述相关实体的标识、名称以及实体描述的整合向量表示。


12.根据权利要求7至11中任一项所述的方法,其特征在于,所述搜索结果包括:第一类搜索结果和第二类搜索结果;
所述排序模型包括:共享向量子模型、第一排序子模型和第二排序子模型;
将所述样本query、用户在输入样本query之前第一时长内的搜索历史信息、用户在输入样本query之前第二时长内的搜索历史信息以及样本query对应的搜索结果输入所述共享向量子模型,得到所述共享向量子模型输出的所述样本query的向量表示和所述第一时长内的搜索历史信息的向量表示的整合,以及所述样本query的向量表示和所述在第二时长内的搜索历史信息的向量表示的整合;
将所述共享向量子模型的输出以及样本query的第一类搜索结果输入所述第一排序子模型,得到对所述第一搜索结果的评分;以及将所述共享向量子模型的输出以及样本query的第二类搜索结果输入所述第二排序子模型,得到对所述第二搜索结果的评分;
对所述第一排序子模型和第二排序子模型进行联合训练,以达到预设的训练目标,所述训练目标包括:最大化第一类搜索结果被点击状况与第一类搜索结果的评分之间的相关度,以及最大化第二类搜索结果被点击状况与第二类搜索结果的评分之间的相关度;
训练结束后,利用所述第一排序子模型和所述第二排序子模型中的一个以及所述共享向量子模型,得到所述搜索结果排序模型。


13.根据权利要求12所述的方法,其特征在于,对所述第一排序子模型和第二排序子...

【专利技术属性】
技术研发人员:黄际洲王海峰张伟
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1