搜索请求处理方法及设备技术

技术编号:33641472 阅读:10 留言:0更新日期:2022-06-02 20:16
公开了一种搜索请求处理方法、展示搜索结果的方法、用于搜索请求处理的装置、搜索请求处理设备、展示搜索结果的设备和计算机可读存储介质。本公开利用人工智能技术识别并删除搜索请求中的不必要的词语来处理搜索请求,从而使得搜索引擎能够返回更多、更准确的搜索结果。相比于将搜索请求中的一部搜索词语随机删除的方法而言,能够保留搜索请求中的核心内容,提高搜索请求能够召回的搜索结果的数量和质量。质量。质量。

【技术实现步骤摘要】
搜索请求处理方法及设备


[0001]本公开涉及人工智能服务领域,更具体地涉及一种搜索请求处理方法、展示搜索结果的方法、用于搜索请求处理的装置、搜索请求处理设备、展示搜索结果的设备和计算机可读存储介质。

技术介绍

[0002]随着移动终端技术及网络技术的飞速发展,网页搜索、新闻搜索、多媒体文件搜索等搜索应用也在飞速地发展当中,被越来越多的用户所依赖。在各种搜索应用中通过浏览器、客户端的图形界面、语音接口等为用户提供搜索入口,用户可以通过它提交搜索请求(query),搜索应用在找到与搜索词相匹配的搜索结果,然后将搜索结果返回给用户。
[0003]搜索请求通常会被搜索引擎进行进一步地改写,以便于搜索引擎能够返回更多、更准确的搜索结果。搜索引擎中对搜索请求进行进一步改写的模块/软件/代码又被称为搜索请求重写(Query ReWrite)模块。搜索请求重写模块可以对搜索请求进行诸如语言转换(包括繁简转换)、同义词改写、拼写纠错等等。
[0004]然而,即使经过当前搜索请求重写模块对搜索请求进行改写之后,搜索请求中仍可能存在一些不重要的词语导致搜索引擎无法返回结果或者返回不相关的结果。为此,目前普遍的处理方法是,在搜索引擎无法返回符合用户需求的搜索结果的情况下,将搜索请求中的词语随机删去一部分或者删去一些非实体词(例如:“的”、“。”),以使得搜索引擎能够返回更多的搜索结果。然而这样的处理方法可能会导致搜索引擎返回的搜索结果相关性较低。因此,需要对搜索请求重写模块进行进一步地改进,以使得搜索引擎能够返回更多、更准确的搜索结果。

技术实现思路

[0005]本公开的实施例提供了一种搜索请求处理方法、展示搜索结果的方法、用于搜索请求处理的装置、搜索请求处理设备、展示搜索结果的设备和计算机可读存储介质。
[0006]本公开的实施例提供了一种搜索请求处理方法,包括:基于所述搜索请求,获取所述搜索请求对应的搜索词序列,所述搜索词序列包括多个搜索词;对于所述搜索词序列中的每个搜索词,基于所述搜索词对于所述搜索请求的重要程度、所述搜索词与所述搜索词序列中的其他搜索词的关联关系、所述搜索词的语义信息中的至少一项,计算所述搜索词对应的特征向量;基于所述搜索词序列中的每个搜索词对应的特征向量,确定所述搜索词是否是所述搜索请求的非核心搜索词;在所述搜索词序列中删除作为非核心搜索词的搜索词,以生成更新后的搜索词序列;其中,包括所述搜索词序列对应的搜索结果的点击率低于更新后的所述搜索词序列对应的搜索结果的点击率。
[0007]例如,所述计算所述搜索词对应的特征向量还包括:确定由包括所述搜索词的历史搜索请求组成的历史搜索请求集合;计算所述历史搜索请求集合中的每个历史搜索请求对应的历史搜索结果的历史点击次数、以及所述历史搜索请求集合中的所有历史搜索请求
对应的历史搜索结果的历史点击总数;计算所述历史搜索请求集合中的每个历史搜索请求的点击比例,所述点击比例为所述历史搜索请求对应的历史搜索结果的历史点击次数占所述历史点击总数的比例;基于所述历史搜索请求集合中的每个历史搜索请求对应的历史搜索结果的历史点击次数,计算所述历史搜索请求集合中的每个历史搜索请求与所述历史搜索请求集合中的其它历史搜索请求之间的相似度;基于所述点击比例和所述相似度,计算表征所述搜索词的重要程度的第一特征向量。
[0008]例如,所述计算所述搜索词对应的特征向量还包括:确定包括所述搜索词的历史搜索请求的第一数量;确定包括所述搜索词和所述另一搜索词的历史搜索请求的第二数量;基于第一数量和第二数量,计算表征所述搜索词与所述搜索词序列中的其他搜索词之间的关联关系的第二特征向量。
[0009]例如,所述确定所述搜索词序列中的至少一个搜索词是否是所述搜索请求的非核心搜索词还包括:利用核心搜索词识别模型来确定所述搜索词序列中的至少一个搜索词是否是所述搜索请求的非核心搜索词;其中,所述核心搜索词识别模型的输入为所述搜索词序列中的每个搜索词对应的特征向量,输出为所述搜索词序列中的每个搜索词是否是核心搜索词的判断结果;其中,所述核心搜索词模型在训练过程中融合了历史搜索请求样本的历史点击率。
[0010]例如,所述核心搜索词识别模型的训练样本集的构建包括:获取历史搜索请求样本集以及所述历史搜索请求样本集中的每个历史搜索样本对应的历史搜索词序列,所述历史搜索词序列包括多个历史搜索词并且所述历史搜索词序列对应的搜索结果的数量为零;对于每个历史搜索词序列,确定所述历史搜索词序列的至少一个子集;确定所述至少一个子集中的每个子集组成的候选搜索词序列所对应的历史搜索结果的历史点击次数;基于所述至少一个子集中的每个子集对应的历史点击次数,确定所述历史搜索请求样本的标注结果,所述标注结果指示所述历史搜索词序列中的每个历史搜索词对于所述历史搜索请求是否是非核心历史搜索词。
[0011]例如,所述核心搜索词识别模型包括双向长短时记忆网络,所述双向长短时记忆网络的输入为由所述搜索词序列中的每个搜索词对应的特征向量组成的特征向量集合,所述双向长短时记忆网络的输出为所述搜索词序列的标注得分,所述标注得分包括所述搜索词序列中的每个搜索词是所述搜索请求的核心搜索词的得分以及所述搜索词是所述搜索请求的非核心搜索词的得分;其中,所述双向长短时记忆网络包括正向传播层、逆向传播层和输出层,其中,所述正向传播层以所述特征向量集合为输入、以正向隐藏向量为输出,并且所述正向传播层中除第一个神经元以外的每个神经元的输入包括前一个神经元的输出;所述逆向传播层以所述特征向量集合为输入、以逆向隐藏向量为输出,并且所述逆向传播层中除最后一个神经元以外的每个神经元的输入包括后一个神经元的输出;所述输出层以正向隐藏向量和逆向隐藏向量为输入,以所述搜索词序列的标注得分和标注结果为输出,所述标注结果是基于所述标注得分获得的。
[0012]例如,所述核心搜索词识别模型包括条件随机场网络,所述条件随机场网络以所述搜索词序列的标注得分为输入,以所述标注得分的准确性得分为输出;其中,所述在所述搜索词序列中删除作为非核心搜索词的搜索词还包括:利用所述标注得分的准确性得分,利用动态规划方法来对所述标注结果进行修改。
[0013]例如,所述计算所述历史搜索请求集合中的每个历史搜索请求与所述历史搜索请求集合中的其它历史搜索请求之间的相似度还包括:
[0014]对于所述历史搜索请求集合中的任意一个历史搜索请求Query
i
,使用公式(1)
[0015][0016]计算历史搜索请求Query
i
和所述历史搜索请求集合中的另一历史搜索请求Query
j
之间的相似度其中,doc
x
为历史搜索请求Query
i
返回的历史搜索结果D
i
和历史搜索请求Query
j
返回的历史搜索结果D
j
的交集D
ij
中的任意一条搜索结果,为历史搜索请求Query
i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种搜索请求处理方法,包括:基于所述搜索请求,获取所述搜索请求对应的搜索词序列,所述搜索词序列包括多个搜索词;对于所述搜索词序列中的每个搜索词,基于所述搜索词对于所述搜索请求的重要程度、所述搜索词与所述搜索词序列中的其他搜索词的关联关系、所述搜索词的语义信息中的至少一项,计算所述搜索词对应的特征向量;基于所述搜索词序列中的每个搜索词对应的特征向量,确定所述搜索词是否是所述搜索请求的非核心搜索词;以及在所述搜索词序列中删除作为非核心搜索词的搜索词,以生成更新后的搜索词序列。2.如权利要求1所述的搜索请求处理方法,其中,所述计算所述搜索词对应的特征向量还包括:确定由包括所述搜索词的历史搜索请求组成的历史搜索请求集合;计算所述历史搜索请求集合中的每个历史搜索请求对应的历史搜索结果的历史点击次数、以及所述历史搜索请求集合中的所有历史搜索请求对应的历史搜索结果的历史点击总数;计算所述历史搜索请求集合中的每个历史搜索请求的点击比例,所述点击比例为所述历史搜索请求对应的历史搜索结果的历史点击次数占所述历史点击总数的比例;基于所述历史搜索请求集合中的每个历史搜索请求对应的历史搜索结果的历史点击次数,计算所述历史搜索请求集合中的每个历史搜索请求与所述历史搜索请求集合中的其它历史搜索请求之间的相似度;基于所述点击比例和所述相似度,计算表征所述搜索词的重要程度的第一特征向量。3.如权利要求1或2所述的搜索请求处理方法,其中,所述计算所述搜索词对应的特征向量还包括:确定包括所述搜索词的历史搜索请求的第一数量;确定包括所述搜索词和其它搜索词的历史搜索请求的第二数量;基于第一数量和第二数量,计算表征所述搜索词与所述搜索词序列中的其他搜索词之间的关联关系的第二特征向量。4.如权利要求1所述的搜索请求处理方法,其中,所确定所述搜索词序列中的至少一个搜索词是否是所述搜索请求的非核心搜索词还包括:利用核心搜索词识别模型来确定所述搜索词序列中的至少一个搜索词是否是所述搜索请求的非核心搜索词;其中,所述核心搜索词识别模型的输入为所述搜索词序列中的每个搜索词对应的特征向量,输出为所述搜索词序列中的每个搜索词是否是核心搜索词的判断结果;其中,所述核心搜索词模型在训练过程中融合了历史搜索请求样本的历史点击率。5.如权利要求4所述的搜索请求处理方法,其中,所述核心搜索词识别模型的训练样本集的构建包括:获取历史搜索请求样本集以及所述历史搜索请求样本集中的每个历史搜索样本对应的历史搜索词序列,所述历史搜索词序列包括多个历史搜索词并且所述历史搜索词序列对应的搜索结果的数量为零;
对于每个历史搜索词序列,确定所述历史搜索词序列的至少一个子集;确定所述至少一个子集中的每个子集组成的候选搜索词序列所对应的历史搜索结果的历史点击次数;基于所述至少一个子集中的每个子集对应的历史点击次数,确定所述历史搜索请求样本的标注结果,所述标注结果指示所述历史搜索词序列中的每个历史搜索词对于所述历史搜索请求是否是非核心历史搜索词。6.如权利要求4所述的搜索请求处理方法,其中,所述核心搜索词识别模型包括双向长短时记忆网络,所述双向长短时记忆网络的输入为由所述搜索词序列中的每个搜索词对应的特征向量组成的特征向量集合,所述双向长短时记忆网络的输出为所述搜索词序列的标注得分,所述标注得分包括所述搜索词序列中的每个搜索词是所述搜索请求的核心搜索词的得分以及所述搜索词是所述搜索请求的非核心搜索词的得分;其中,所述双向长短时记忆网络包括正向传播层、逆向传播层和输出层,其中,所述正向传播层以所述特征向量集合为输入、以正向隐藏向量为输出,并且所述正向传播层中除第一个神经元以外的每个神经元的输入包括前一个神经元的输出;所述逆向传播层以所述特征向量集合为输入、以逆向隐藏向量为输出,并且所述逆向传播层中除最后一个神经元以外的每个神经元的输入包括后一个神经元的输出;所述输出层以正向隐藏向量和逆向隐藏向量为输入,以所述搜索词序列的标注得分和标注结果为输出,所述标注结果是基于所述标注得分获得的。7.如权利要求6所述的搜索请求处理方法,其中,所述核心搜索词识别模型包括条件随机场网络,所述条件随机场网络以所述搜索词序列的标注得分为输入,以所述标注得分的准确性得分为输出;其中,所述在所述搜索词序列中删除作为非核心搜索词的搜索词还包括:利用所述标注得分的准确性得分,利用动态规划方法来对所述标注结果进行修改。8.如权利要求2所述的搜索请求处理方法,其中,所述计算所述历史搜索请求集合中的每个历史搜索请求与所述历史搜索请求集合中的其它历史搜索请求之间的相似度还包括:对于所述历史搜索请求集合中的任意一个历史搜索请求Query
i
,使用公式(1)计算历史搜索请求Query
i
和所述...

【专利技术属性】
技术研发人员:云伟标
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1