一种搜索处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:25479897 阅读:19 留言:0更新日期:2020-09-01 23:01
本公开提供了一种搜索处理方法、装置、电子设备及存储介质,其中,该搜索处理方法包括:获取搜索信息中包含的多个关键词;基于所述多个关键词,确定用于进行检索的至少一个目标索引词组;所述目标索引词组中的关键词数量大于预设数量;针对每个所述目标索引词组,基于该目标索引词组对应的各个子索引词组在媒体内容库中对应的媒体内容数量,确定该目标索引词组在所述媒体内容库中对应的媒体内容数量;每个所述子索引词组中的关键词数量大于或等于1,且小于或等于所述预设数量;基于每个目标索引词组以及各个子索引词组在所述媒体内容库中对应的媒体内容数量,确定该搜索信息关联的有效索引词组。本公开实施例降低了搜索压力,提高了搜索效率。

【技术实现步骤摘要】
一种搜索处理方法、装置、电子设备及存储介质
本公开涉及搜索引擎
,具体而言,涉及一种搜索处理方法、装置、电子设备及存储介质。
技术介绍
在涉及大量数据的业务场景中,往往会用到搜索技术,比如针对一些搜索类的客户端,用户可以在客户端输入搜索信息,然后搜索引擎可以根据该搜索信息在媒体内容库中召回与该搜索信息相关的媒体内容,并发送至客户端。搜索引擎在基于搜索信息进行搜索时,可以对搜索信息中包含的各个关键词进行组合,得到多种索引词组,然后基于每种索引词组在媒体内容库中查找与每种索引词组相关的媒体内容。当搜索信息中包含的关键词数量较多,得到的索引词组数量较大时,容易造成的搜索压力较大,搜索效率较低的问题。
技术实现思路
本公开实施例至少提供一种搜索处理方案,以降低搜索压力,提高搜索效率。第一方面,本公开实施例提供了一种搜索处理方法,包括:获取搜索信息中包含的多个关键词;基于所述多个关键词,确定用于进行检索的至少一个目标索引词组;所述目标索引词组中的关键词数量大于预设数量;针对每个所述目标索引词组,基于预先存储的该目标索引词组对应的各个子索引词组在媒体内容库中对应的媒体内容数量,确定该目标索引词组在所述媒体内容库中对应的媒体内容数量;每个所述子索引词组中的关键词数量大于或等于1,且小于或等于所述预设数量;基于每个目标索引词组以及各个子索引词组在所述媒体内容库中对应的媒体内容数量,确定该搜索信息关联的有效索引词组。在一种可能的实施方式中,所述获取搜索信息中包含的多个关键词,包括:对所述搜索信息关联的文本进行分词,得到多个词单元;基于每个词单元在媒体内容库中对应的媒体内容数量,以及所述媒体内容库中的媒体内容总量,确定用于表征该词单元在媒体内容库中的重要程度的分值;将对应分值超过设定分值的词单元作为所述搜索请求的关键词。在一种可能的实施方式中,所述基于所述多个关键词,确定用于进行检索的至少一个目标索引词组,包括:基于所述多个关键词的关键词总数,确定包含的关键词个数大于所述预设数量的至少一种索引词组类型,不同索引词组类型对应的索引词组包含的关键词个数不同;按照每种索引词组类型,在所述多个关键词中提取与该种索引词组类型对应个数的关键词,得到与该种索引词组类型关联的至少一个目标索引词组。在一种可能的实施方式中,按照以下方式确定任一目标索引词组在所述媒体内容库中对应的媒体内容数量:确定该任一目标索引词组包含的不同维度的子索引词组,不同维度的子索引词组中包含的关键词个数不同;基于预先存储的不同维度的子索引词组对应的媒体内容数量,确定该任一目标索引词组中,每个高维度的子索引词组相对于与该高维度的子索引词组对应的低维度的子索引词组的降维特征;对该任一目标索引词组对应的各个子索引词组在媒体内容库中对应的媒体内容数量的数量级进行处理,得到该任一目标索引词组对应的各个子索引词组对应的媒体内容数量特征;基于所述任一目标索引词组关联的所述降维特征和所述媒体内容数量特征,确定所述任一目标索引词组在所述媒体内容库中对应的媒体内容数量。在一种可能的实施方式中,针对每个所述目标索引词组,基于预先存储的该目标索引词组对应的各个子索引词组在媒体内容库中对应的媒体内容数量,确定该目标索引词组在所述媒体内容库中对应的媒体内容数量,包括:基于预先存储的该目标索引词组对应的各个子索引词组在媒体内容库中对应的媒体内容数量和对应的网络模型,得到该目标索引词组在所述媒体内容库中对应的媒体内容数量;其中,不同的网络模型用于预估包含不同关键词个数的目标索引词组在所述媒体内容库中对应的媒体内容数量。在一种可能的实施方式中,按照以下方式预先训练所述网络模型:获取样本搜索信息中包含的多个样本关键词;基于所述多个样本关键词,确定用于进行检索的至少一个样本索引词组,所述样本索引词组中的关键词数量大于预设数量;获取所述样本搜索信息中,每个样本索引词组在所述媒体内容库中对应的真实媒体内容数量;针对每个所述样本索引词组,基于预先存储的该样本索引词组对应的各个样本子索引词组在媒体内容库中对应的媒体内容数量和待训练的网络模型,预估该样本索引词组在所述媒体内容库中对应的媒体内容数量;每个所述样本子索引词组中的关键词数量大于或等于1,且小于或等于所述预设数量;基于预估的该样本索引词组在所述媒体内容库中对应的媒体内容数量,以及该样本索引词组在所述媒体内容库中对应的真实媒体内容数量,对所述待训练的网络模型中的模型参数值进行调整,得到训练后的网络模型。在一种可能的实施方式中,所述搜索处理方法还包括:响应于客户端针对所述搜索信息触发的搜索请求,确定所述搜索信息关联的每个有效索引词组在所述媒体内容库中对应的媒体内容数量;在媒体内容库中对应的媒体内容数量达到设定阈值的有效索引词组中,选择包含的关键词个数最多的有效索引词组作为推荐索引词组;将所述推荐索引词组对应的媒体内容作为搜索结果发送至所述客户端。第二方面,本公开实施例提供了一种搜索处理方法,包括:接收客户端发送的搜索请求;基于所述搜索请求中包含的关键词,确定所述搜索请求关联的各个索引词组;在媒体内容库中对应的媒体内容数量达到设定阈值的索引词组中,选择包含的关键词个数最多的索引词组作为推荐索引词组,所述索引词组对应的媒体内容数量按照第一方面所述的搜索处理方法确定;将所述推荐索引词组对应的媒体内容作为搜索结果发送至所述客户端。第三方面,本公开实施例提供了一种搜索处理装置,包括:获取模块,用于获取搜索信息中包含的多个关键词;第一确定模块,用于基于所述多个关键词,确定用于进行检索的至少一个目标索引词组;所述目标索引词组中的关键词数量大于预设数量;第二确定模块,用于针对每个所述目标索引词组,基于预先存储的该目标索引词组对应的各个子索引词组在媒体内容库中对应的媒体内容数量,确定该目标索引词组在所述媒体内容库中对应的媒体内容数量;每个所述子索引词组中的关键词数量大于或等于1,且小于或等于所述预设数量;第三确定模块,用于基于每个目标索引词组以及各个子索引词组在所述媒体内容库中对应的媒体内容数量,确定该搜索信息关联的有效索引词组。在一种可能的实施方式中,所述获取模块在用于获取搜索信息中包含的多个关键词时,包括:对所述搜索信息关联的文本进行分词,得到多个词单元;基于每个词单元在媒体内容库中对应的媒体内容数量,以及所述媒体内容库中的媒体内容总量,确定用于表征该词单元在媒体内容库中的重要程度的分值;将对应分值超过设定分值的词单元作为所述搜索请求的关键词。在一种可能的实施方式中,所述第一确定模块在用于基于所述多个关键词,确定用于进行检索的至少一个目标索引词组时,包括:基于所述多个关键词的关键词总数,确定包含的关键词个数大于所述预设数量的至少一本文档来自技高网...

【技术保护点】
1.一种搜索处理方法,其特征在于,包括:/n获取搜索信息中包含的多个关键词;/n基于所述多个关键词,确定用于进行检索的至少一个目标索引词组;所述目标索引词组中的关键词数量大于预设数量;/n针对每个所述目标索引词组,基于预先存储的该目标索引词组对应的各个子索引词组在媒体内容库中对应的媒体内容数量,确定该目标索引词组在所述媒体内容库中对应的媒体内容数量;每个所述子索引词组中的关键词数量大于或等于1,且小于或等于所述预设数量;/n基于每个目标索引词组以及各个子索引词组在所述媒体内容库中对应的媒体内容数量,确定该搜索信息关联的有效索引词组。/n

【技术特征摘要】
1.一种搜索处理方法,其特征在于,包括:
获取搜索信息中包含的多个关键词;
基于所述多个关键词,确定用于进行检索的至少一个目标索引词组;所述目标索引词组中的关键词数量大于预设数量;
针对每个所述目标索引词组,基于预先存储的该目标索引词组对应的各个子索引词组在媒体内容库中对应的媒体内容数量,确定该目标索引词组在所述媒体内容库中对应的媒体内容数量;每个所述子索引词组中的关键词数量大于或等于1,且小于或等于所述预设数量;
基于每个目标索引词组以及各个子索引词组在所述媒体内容库中对应的媒体内容数量,确定该搜索信息关联的有效索引词组。


2.根据权利要求1所述的搜索处理方法,其特征在于,所述获取搜索信息中包含的多个关键词,包括:
对所述搜索信息关联的文本进行分词,得到多个词单元;
基于每个词单元在媒体内容库中对应的媒体内容数量,以及所述媒体内容库中的媒体内容总量,确定用于表征该词单元在媒体内容库中的重要程度的分值;
将对应分值超过设定分值的词单元作为所述搜索请求的关键词。


3.根据权利要求1或2所述的搜索处理方法,其特征在于,所述基于所述多个关键词,确定用于进行检索的至少一个目标索引词组,包括:
基于所述多个关键词的关键词总数,确定包含的关键词个数大于所述预设数量的至少一种索引词组类型,不同索引词组类型对应的索引词组包含的关键词个数不同;
按照每种索引词组类型,在所述多个关键词中提取与该种索引词组类型对应个数的关键词,得到与该种索引词组类型关联的至少一个目标索引词组。


4.根据权利要求1所述的搜索处理方法,其特征在于,按照以下方式确定任一目标索引词组在所述媒体内容库中对应的媒体内容数量:
确定该任一目标索引词组包含的不同维度的子索引词组,不同维度的子索引词组中包含的关键词个数不同;
基于预先存储的不同维度的子索引词组对应的媒体内容数量,确定该任一目标索引词组中,每个高维度的子索引词组相对于与该高维度的子索引词组对应的低维度的子索引词组的降维特征;
对该任一目标索引词组对应的各个子索引词组在媒体内容库中对应的媒体内容数量的数量级进行处理,得到该任一目标索引词组对应的各个子索引词组对应的媒体内容数量特征;
基于所述任一目标索引词组关联的所述降维特征和所述媒体内容数量特征,确定所述任一目标索引词组在所述媒体内容库中对应的媒体内容数量。


5.根据权利要求1所述的搜索处理方法,其特征在于,针对每个所述目标索引词组,基于预先存储的该目标索引词组对应的各个子索引词组在媒体内容库中对应的媒体内容数量,确定该目标索引词组在所述媒体内容库中对应的媒体内容数量,包括:
基于预先存储的该目标索引词组对应的各个子索引词组在媒体内容库中对应的媒体内容数量和对应的网络模型,得到该目标索引词组在所述媒体内容库中对应的媒体内容数量;其中,不同的网络模型用于预估包含不同关键词个数的目标索引词组在所述媒体内容库中对应的媒体内容数量。


6.根据权利要求5所述的搜索处理方法,其特征在于,按照以下方式预先训练所述网络模型:
获取样本搜索信息中包含的多个样本关键词;
基于所述多个样本关键词,确定用于进行检索的至少一个样本索引词组,所述样本索引词组中的关键词数量大于预设数量;获取所述样本搜索信息中,每个样本索引词组在所述媒体内容库中对应的真实...

【专利技术属性】
技术研发人员:王鑫宇张永华
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1