一种搜索数据的处理方法、装置及电子设备制造方法及图纸

技术编号:21432305 阅读:24 留言:0更新日期:2019-06-22 11:57
本发明专利技术公开了一种搜索数据的处理方法、装置及电子设备。该方法包括:根据搜索用户、搜索时间和搜索关键词对获取的用户搜索日志进行划分,获得每个用户对应一次搜索意图下的目标搜索行为及每次目标搜索行为对应的搜索意图和末次点击搜索结果项;获得同一搜索意图下、每条搜索结果项作为末次点击搜索结果项的次数以及每条搜索结果项的展现次数;计算各搜索意图下,每条搜索结果项对应的末次点击率:同一搜索意图下每条搜索结果项作为末次点击搜索结果项的次数与每条搜索结果项的展现次数的比值;根据末次点击率获得同一搜索意图下的每条搜索结果项与对应搜索意图下的关键词之间的搜索相关性,从而提高搜索相关性的准确性,改善搜索结果项的排序。

【技术实现步骤摘要】
一种搜索数据的处理方法、装置及电子设备
本专利技术涉及软件
,特别涉及一种搜索数据的处理方法、装置及电子设备。
技术介绍
随着科学技术的不断发展,搜索引擎越来越强大,搜索效率和匹配度都已经达到了非常高的水平,想要进一步提高非常的困难,但在搜索结果排序上还有较大的提升空间。现有技术中,通常采用点击率来反映用户对于搜索结果项与搜索关键词之间相关性感知的反馈,从而根据点击率来对搜索结果项进行排序,其中,点击率是指某一搜索结果项被点击的次数与被显示次数之比。但本申请专利技术人在实施本申请的过程中发现,很多时候点击率并不能准确的反映用户感知反馈的搜索关键词与搜索结果项之间的相关性即搜索相关性,因为用户对于搜索结果项的点击往往是尝试性的,其点击的结果不一定是用户想要搜索的结果,可能还需要多次点击查看或修改搜索关键词才能获得真正想要的搜索结果,即现有技术中通过用户点击率来获取搜索相关性的方法存在准确性较差的技术问题。
技术实现思路
本专利技术实施例提供一种搜索数据的处理方法、装置及电子设备,能够提高搜索结果项与搜索关键词之间的搜索相关性的准确性,改善搜索结果项的排序。本专利技术实施例提供一种搜索数据的处理方法,包括:获取一定时间段内的用户搜索日志;根据搜索用户、搜索时间和搜索关键词对所述用户搜索日志进行划分,得到每个用户对应一次搜索意图下的目标搜索行为,并确定出每次目标搜索行为对应的搜索意图和末次点击搜索结果项;对属于同一搜索意图下的目标搜索行为进行统计,得到同一搜索意图下、每条搜索结果项作为末次点击搜索结果项的次数以及所述每条搜索结果项的展现次数;计算得到各搜索意图下,每条搜索结果项对应的末次点击率;其中,所述每条搜索结果项对应的末次点击率等于同一搜索意图下所述每条搜索结果项作为末次点击搜索结果项的次数与所述每条搜索结果项的展现次数的比值;根据所述末次点击率获得同一搜索意图下的每条搜索结果项与对应搜索意图下的关键词之间的搜索相关性。可选的,所述根据搜索用户、搜索时间和搜索关键词对所述用户搜索日志进行划分,得到每个用户对应一次搜索意图下的目标搜索行为,包括:根据用户搜索日志中的搜索时间,获得同一用户搜索日志中的预设时长内的搜索行为之间的搜索时间间隔以及各搜索行为的搜索关键词;计算获得各搜索行为的搜索关键词之间的语义相似度和文本相似度;获得所述搜索时间间隔小于第一阈值、所述搜索关键词之间的语义相似度大于第二阈值且所述文本相似度大于第三阈值的搜索行为作为同一用户对应的一次搜索意图下的所述目标搜索行为。可选的,计算获得各搜索行为的搜索关键词之间的语义相似度,包括:获得各搜索行为的搜索关键词的分词;根据每个分词的词向量获得每个搜索关键词的词向量,分别计算任两个搜索行为的搜索关键词的词向量之间的相似度;将各搜索行为的搜索关键词的词向量之间的相似度作为所述语义相似度。可选的,计算获得各搜索行为的搜索关键词之间的文本相似度,包括:获得各搜索行为的搜索关键词的分词;获得各搜索关键词的分词中相同的分词数与各搜索关键词的分词总数之间的比值作为所述文本相似度。可选的,所述搜索意图下的关键词包括:所述搜索意图下的目标搜索行为包含的所有搜索行为对应的搜索关键词;或者,所述搜索意图下的目标搜索行为中最后一次搜索行为对应的搜索关键词。可选的,所述根据所述末次点击率获得同一搜索意图下的每条搜索结果项与对应搜索意图下的关键词之间的搜索相关性,包括:根据所述末次点击率和目标参数对同一搜索意图下的每条搜索结果项与对应搜索意图的关键词之间的搜索相关性进行打分;根据所述末次点击率、所述目标参数及所述打分获得训练样本进行模型训练,获得表征所述搜索相关性的模型;其中,所述目标参数包括:同一搜索意图下的搜索结果项的标题与对应搜索意图的关键词之间的相似度、搜索结果项对应网站的权威性和/或搜索结果项中广告的数量。可选的,在获取到所述末次点击率或所述搜索相关性之后,所述方法还包括:接收用户输入的搜索关键词;确定所述用户输入的搜索关键词所属的目标搜索意图,并获得所述用户输入的搜索关键词对应的目标搜索结果项;获取每条目标搜索结果项在所述目标搜索意图下的末次点击率;根据每条目标搜索结果项在所述目标搜索意图下的末次点击率或依据末次点击率得到的搜索相关性对每条目标搜索结果项进行排序,并基于排序结果进行搜索结果项展现。可选的,在获取到所述末次点击率或所述搜索相关性之后,所述方法还包括:接收用户输入的搜索关键词;确定所述用户输入的搜索关键词所属的目标搜索意图,并获得所述目标搜索意图对应的目标搜索结果项,其中,所述目标搜索意图对应的目标搜索项包括针对所述目标搜索意图下的每个关键词分别进行搜索时获得的搜索结果项;获取每条目标搜索结果项在所述目标搜索意图下的末次点击率;根据每条目标搜索结果项在所述目标搜索意图下的末次点击率或依据末次点击率计算得到的搜索相关性对每条目标搜索结果项进行排序,并基于排序结果进行搜索结果项展现。本申请实施例还提供一种搜索数据的处理装置,包括:第一获取单元,用于获取一定时间段内的用户搜索日志;划分单元,根据搜索用户、搜索时间和搜索关键词对所述用户搜索日志进行划分,得到每个用户对应一次搜索意图下的目标搜索行为,并确定出每次目标搜索行为对应的搜索意图和末次点击搜索结果项;统计单元,用于对属于同一搜索意图下的目标搜索行为进行统计,得到同一搜索意图下、每条搜索结果项作为末次点击搜索结果项的次数以及所述每条搜索结果项的展现次数;计算单元,用于计算得到各搜索意图下,每条搜索结果项对应的末次点击率;其中,所述每条搜索结果项对应的末次点击率等于同一搜索意图下所述每条搜索结果项作为末次点击搜索结果项的次数与所述每条搜索结果项的展现次数的比值;第二获取单元,用于根据所述末次点击率获得同一搜索意图下的每条搜索结果项与对应搜索意图下的关键词之间的搜索相关性。可选的,所述划分单元用于:根据用户搜索日志中的搜索时间,获得同一用户搜索日志中的预设时长内的搜索行为之间的搜索时间间隔以及各搜索行为的搜索关键词;计算获得各搜索行为的搜索关键词之间的语义相似度和文本相似度;获得所述搜索时间间隔小于第一阈值、所述搜索关键词之间的语义相似度大于第二阈值且所述文本相似度大于第三阈值的搜索行为作为同一用户对应的一次搜索意图下的所述目标搜索行为。可选的,所述划分单元包括语义计算子单元,用于:获得各搜索行为的搜索关键词的分词;根据每个分词的词向量获得每个搜索关键词的词向量,分别计算任两个搜索行为的搜索关键词的词向量之间的相似度;将各搜索行为的搜索关键词的词向量之间的相似度作为所述语义相似度。可选的,所述划分单元包括文本计算子单元,用于:获得各搜索行为的搜索关键词的分词;获得各搜索关键词的分词中相同的分词数与各搜索关键词的分词总数之间的比值作为所述文本相似度。可选的,所述搜索意图下的关键词包括:所述搜索意图下的目标搜索行为包含的所有搜索行为对应的搜索关键词;或者,所述搜索意图下的目标搜索行为中最后一次搜索行为对应的搜索关键词。可选的,所述第二获取单元用于:根据所述末次点击率和目标参数对同一搜索意图下的每条搜索结果项与对应搜索意图的关键词之间的搜索相关性进行打分;根据所述末次点击率、所述目标参数及所述打分获得训练样本本文档来自技高网...

【技术保护点】
1.一种搜索数据的处理方法,其特征在于,包括:获取一定时间段内的用户搜索日志;根据搜索用户、搜索时间和搜索关键词对所述用户搜索日志进行划分,得到每个用户对应一次搜索意图下的目标搜索行为,并确定出每次目标搜索行为对应的搜索意图和末次点击搜索结果项;对属于同一搜索意图下的目标搜索行为进行统计,得到同一搜索意图下、每条搜索结果项作为末次点击搜索结果项的次数以及所述每条搜索结果项的展现次数;计算得到各搜索意图下,每条搜索结果项对应的末次点击率;其中,所述每条搜索结果项对应的末次点击率等于同一搜索意图下所述每条搜索结果项作为末次点击搜索结果项的次数与所述每条搜索结果项的展现次数的比值;根据所述末次点击率获得同一搜索意图下的每条搜索结果项与对应搜索意图下的关键词之间的搜索相关性。

【技术特征摘要】
1.一种搜索数据的处理方法,其特征在于,包括:获取一定时间段内的用户搜索日志;根据搜索用户、搜索时间和搜索关键词对所述用户搜索日志进行划分,得到每个用户对应一次搜索意图下的目标搜索行为,并确定出每次目标搜索行为对应的搜索意图和末次点击搜索结果项;对属于同一搜索意图下的目标搜索行为进行统计,得到同一搜索意图下、每条搜索结果项作为末次点击搜索结果项的次数以及所述每条搜索结果项的展现次数;计算得到各搜索意图下,每条搜索结果项对应的末次点击率;其中,所述每条搜索结果项对应的末次点击率等于同一搜索意图下所述每条搜索结果项作为末次点击搜索结果项的次数与所述每条搜索结果项的展现次数的比值;根据所述末次点击率获得同一搜索意图下的每条搜索结果项与对应搜索意图下的关键词之间的搜索相关性。2.如权利要求1所述的方法,其特征在于,所述根据搜索用户、搜索时间和搜索关键词对所述用户搜索日志进行划分,得到每个用户对应一次搜索意图下的目标搜索行为,包括:根据用户搜索日志中的搜索时间,获得同一用户搜索日志中的预设时长内的搜索行为之间的搜索时间间隔以及各搜索行为的搜索关键词;计算获得各搜索行为的搜索关键词之间的语义相似度和文本相似度;获得所述搜索时间间隔小于第一阈值、所述搜索关键词之间的语义相似度大于第二阈值且所述文本相似度大于第三阈值的搜索行为作为同一用户对应的一次搜索意图下的所述目标搜索行为。3.如权利要求2所述的方法,其特征在于,计算获得各搜索行为的搜索关键词之间的语义相似度,包括:获得各搜索行为的搜索关键词的分词;根据每个分词的词向量获得每个搜索关键词的词向量,分别计算任两个搜索行为的搜索关键词的词向量之间的相似度;将各搜索行为的搜索关键词的词向量之间的相似度作为所述语义相似度。4.如权利要求2所述的方法,其特征在于,计算获得各搜索行为的搜索关键词之间的文本相似度,包括:获得各搜索行为的搜索关键词的分词;获得各搜索关键词的分词中相同的分词数与各搜索关键词的分词总数之间的比值作为所述文本相似度。5.如权利要求1所述的方法,其特征在于,所述搜索意图下的关键词包括:所述搜索意图下的目标搜索行为包含的所有搜索行为对应的搜索关键词;或者,所述搜索意图下的目标搜索行为中最后一次搜索行为对应的搜索关键词。6.如权利要求1~5任一所述的方法,其特征在于,所述根据所述末次点击率获得同一搜索意图下的每条搜索结果项与对应搜索意图下的关键词之间的搜索相关性,包括:根据所述末次点击率和目标参数对同一搜索意图下的每条搜索结果项与对应搜索意图的关键词之间的搜索相关性进行打分;根据所述末次点击率、所述目标参数及所述打分获得训练样本进行模型训练,获得表征所述搜索相关性的模型;其中,所述目标参数包括:同一搜索意图下的搜索结果项的标题与对应搜索意图的关键词之间的相似度、搜索结果项对应网站的权威性和/或搜索结果项中广告的数量。7.如权利要求1~5任一所述的方法,其特征在于,在获取到所述末次点击率或所述搜索相关性之后,所述方法还包括:接收用户输入的搜索关键词;确定所述用户输入的搜索关键词所属的目标搜...

【专利技术属性】
技术研发人员:蔡少阳孙键陈炜鹏许静芳
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1