一种词条权重的计算方法、搜索方法及相关装置制造方法及图纸

技术编号:21454045 阅读:43 留言:0更新日期:2019-06-26 04:49
本申请实施例公开一种词条权重的计算方法,在构建相似搜索词集合后,针对相似搜索词集合中包括的每个搜索词,计算每个搜索词对应的搜索结果点击率。以相似搜索词集合中的一搜索词作为第一搜索词,依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度。之后,针对所述第一搜索词包括的各分词词条,依据第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到第一搜索词包括的各个分词词条的词条权重。利用得到的词条权重可以更准确地从用户输入搜索词中提取出准确的核心词,或者针对用户输入的搜索词返回合理的搜索结果项排序,提高用户体验。

【技术实现步骤摘要】
一种词条权重的计算方法、搜索方法及相关装置
本申请涉及互联网
,特别是涉及一种词条权重的计算方法、搜索方法及相关装置。
技术介绍
随着互联网的不断发展,网络中的信息也呈现喷井式增长,用户通常利用搜索引擎进行搜索的方式从大量信息中获取用户关心的信息。而搜索过程中,用户需要针对搜索目标提交搜索词,搜索词中各个分词词条的权重可以用来度量搜索词中每个词条的重要程度,搜索引擎根据词条权重从搜索词中提取核心词,从而向用户返回与核心词相关的搜索结果项,以及根据词条权重对返回的词条对应的搜索结果项进行排序。因此,如何精准识别用户提交的搜索词中各个分词词条的权重,直接决定了搜索引擎返回的搜索结果项和搜索结果项最终呈现的排序效果。目前计算词条权重的方法是针对一个搜索结果项,利用点击日志收集得到该搜索结果项所对应的搜索词,将这些搜索词组成一个搜索词集合,将搜索词集合中的每个搜索词进行分词,分别得到对应的分词词条,针对一个搜索词的每个分词词条,根据该分词词条出现的频次确定权重,出现频次较高的分词词条可以为其赋予较高的权重。但是,现有方法计算出的词条权重缺乏相关度信息,难以准确衡量词条的重要程度,进而导致从用户输入搜索词中提取出错误的核心词,或者针对用户输入的搜索词返回的搜索结果项排序不合理,影响用户体验。
技术实现思路
为了解决上述技术问题,本申请提供了一种词条权重的计算方法、搜索方法及相关装置,能够提高词条权重计算的准确度,进一步改善搜索结果项排序的合理性,提升用户体验。本申请实施例公开了如下技术方案:第一方面,本申请实施例提供一种词条权重的计算方法,所述方法包括:针对用户点击日志数据中的搜索词,构建相似搜索词集合,其中,相似搜索词集合中的各搜索词为所述点击日志数据中点击到同一搜索结果项的搜索词;针对相似搜索词集合中包括的每个搜索词,计算得到每个搜索词对应的搜索结果点击率;其中,所述搜索结果点击率为搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;以所述相似搜索词集合中的一搜索词作为第一搜索词,依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度;对所述第一搜索词进行分词,得到所述第一搜索词包括的至少一个分词词条;针对所述第一搜索词包括的各分词词条,依据所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的每个分词词条的词条权重。可选的,所述计算得到每个搜索词对应的搜索结果点击率包括:获取以所述搜索词进行搜索时,所述搜索词所属相似搜索词集合对应的搜索结果项被点击的次数,记为第一次数;获取所述搜索词被搜索的次数,记为第二次数;将所述第一次数与第二次数的比值作为所述搜索词对应的搜索结果点击率。可选的,所述依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度后,所述方法还包括:对所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度进行归一化处理;所述依据所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的各个分词词条的词条权重,包括:依据归一化处理后所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的各个分词词条的词条权重。可选的,所述对所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度进行归一化处理,包括:其中,weight(query,qanchor)表示所述第一搜索词与其所属相似搜索词集合中任一搜索词之间的相关程度;query表示所述第一搜索词,qanchor表示相似搜索词集合中的任一搜索词;click(query,doci)表示所述第一搜索词针对其所属第i个相似搜索词集合对应的搜索结果项的点击率,n为所述第一搜索词所属相似搜索词集合的个数;click(query)表示所述第一搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率之和;click(qanchor,doci)表示所述任一搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;click(doci)表示所述第一搜索词所属第i个相似搜索词集合中所有搜索词对应的搜索结果点击率之和。可选的,所述依据归一化处理后所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的每个分词词条的词条权重,包括:获取所述第一搜索词所属相似搜索词集合中所有包括所述分词词条的第二搜索词;获取归一化处理后所述第一搜索词与每个第二搜索词之间的相关程度并进行求和计算,将计算结果作为所述第一搜索词包括的所述分词词条的词条权重。可选的,所述针对用户点击日志数据中的搜索词,构建相似搜索词集合之前,所述方法还包括:获取所述用户点击日志数据中搜索词指向的搜索点击结果集合;针对搜索点击结果集合中每个搜索结果项,分别将点击到同一搜索结果项的搜索词组成相似搜索词集合。可选的,所述获取所述用户点击日志数据中搜索词指向的搜索点击结果集合,包括:获取用户针对所述搜索词在执行搜索行为后点击过的全部搜索结果项;将所述全部搜索结果项中被点击次数大于预设阈值的搜索结果项组成所述搜索点击结果集合。第二方面,本申请实施例提供一种词条权重的计算装置,所述装置包括构建单元、第一计算单元、第二计算单元、分词单元和第三计算单元:所述构建单元,用于针对用户点击日志数据中的搜索词,构建相似搜索词集合,其中,相似搜索词集合中的各搜索词为所述点击日志数据中点击到同一搜索结果项的搜索词;所述第一计算单元,用于针对相似搜索词集合中包括的每个搜索词,计算得到每个搜索词对应的搜索结果点击率;其中,所述搜索结果点击率为搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;所述第二计算单元,用于以所述相似搜索词集合中的一搜索词作为第一搜索词,依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度;所述分词单元,用于对所述第一搜索词进行分词,得到所述第一搜索词包括的至少一个分词词条;所述第三计算单元,用于针对所述第一搜索词包括的各分词词条,依据所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的每个分词词条的词条权重。可选的,所述第一计算单元,具体用于:获取以所述搜索词进行搜索时,所述搜索词所属相似搜索词集合对应的搜索结果项被点击的次数,记为第一次数;获取所述搜索词被搜索的次数,记为第二次数;将所述第一次数与第二次数的比值作为所述搜索词对应的搜索结果点击率。可选的,所述装置还包括处理单元:所述处理单元,用于对所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度进行归一化处理;所述第三计算单元,具体用于:依据归一化处理后所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的各个分词词条的词条权重。可选的,所述处理单元具体通过以下公式进行处理得到归一化处理后的相关程度:其中,weight(query,qanchor)表示所述第一搜索词与其所属相似搜索本文档来自技高网...

【技术保护点】
1.一种词条权重的计算方法,其特征在于,所述方法包括:针对用户点击日志数据中的搜索词,构建相似搜索词集合,其中,相似搜索词集合中的各搜索词为所述点击日志数据中点击到同一搜索结果项的搜索词;针对相似搜索词集合中包括的每个搜索词,计算得到每个搜索词对应的搜索结果点击率;其中,所述搜索结果点击率为搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;以所述相似搜索词集合中的一搜索词作为第一搜索词,依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度;对所述第一搜索词进行分词,得到所述第一搜索词包括的至少一个分词词条;针对所述第一搜索词包括的各分词词条,依据所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的每个分词词条的词条权重。

【技术特征摘要】
1.一种词条权重的计算方法,其特征在于,所述方法包括:针对用户点击日志数据中的搜索词,构建相似搜索词集合,其中,相似搜索词集合中的各搜索词为所述点击日志数据中点击到同一搜索结果项的搜索词;针对相似搜索词集合中包括的每个搜索词,计算得到每个搜索词对应的搜索结果点击率;其中,所述搜索结果点击率为搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;以所述相似搜索词集合中的一搜索词作为第一搜索词,依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度;对所述第一搜索词进行分词,得到所述第一搜索词包括的至少一个分词词条;针对所述第一搜索词包括的各分词词条,依据所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的每个分词词条的词条权重。2.根据权利要求1所述的方法,其特征在于,所述计算得到每个搜索词对应的搜索结果点击率包括:获取以所述搜索词进行搜索时,所述搜索词所属相似搜索词集合对应的搜索结果项被点击的次数,记为第一次数;获取所述搜索词被搜索的次数,记为第二次数;将所述第一次数与第二次数的比值作为所述搜索词对应的搜索结果点击率。3.根据权利要求1所述的方法,其特征在于,所述依据第一搜索词所属相似搜索词集合包括的各搜索词分别对应的搜索结果点击率,计算所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度后,所述方法还包括:对所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度进行归一化处理;所述依据所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的各个分词词条的词条权重,包括:依据归一化处理后所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的各个分词词条的词条权重。4.根据权利要求3所述的方法,其特征在于,所述对所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度进行归一化处理,包括:其中,weight(query,qanchor)表示所述第一搜索词与其所属相似搜索词集合中任一搜索词之间的相关程度;query表示所述第一搜索词,qanchor表示相似搜索词集合中的任一搜索词;click(query,doci)表示所述第一搜索词针对其所属第i个相似搜索词集合对应的搜索结果项的点击率,n为所述第一搜索词所属相似搜索词集合的个数;click(query)表示所述第一搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率之和;click(qanchor,doci)表示所述任一搜索词针对其所属相似搜索词集合对应的搜索结果项的点击率;click(doci)表示所述第一搜索词所属第i个相似搜索词集合中所有搜索词对应的搜索结果点击率之和。5.根据权利要求3所述的方法,其特征在于,所述依据归一化处理后所述第一搜索词与其所属相似搜索词集合中各搜索词之间的相关程度,计算得到所述第一搜索词包括的每个分词词条的词条权重,包括:获取所述第一搜索词所属相似搜索词集合中所有包括所述分词...

【专利技术属性】
技术研发人员:石翔陈炜鹏许静芳
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1