一种搜索引擎坏例的挖掘方法和装置制造方法及图纸

技术编号:9667955 阅读:115 留言:0更新日期:2014-02-14 06:26
本发明专利技术提供了一种搜索引擎坏例(badcase)的挖掘方法和装置,其中方法包括:预处理过程:从会话(session)日志中抽取一定数量的session作为样本,并从样本的各session中抽取描述搜索质量的特征向量;利用各session的特征向量对样本进行聚类;确定聚类得到的各类别的置信度,置信度代表搜索质量低的程度;挖掘过程:在待挖掘的session日志中确定同一query下的行为序列,并从行为序列中抽取描述搜索质量的特征向量;通过计算query的特征向量与各类别的特征向量之间的距离,确定query所属的类别;如果query所属类别的置信度超过预设的高阈值,则确定搜索引擎对该query存在badcase。本发明专利技术能够实现搜索引擎badcase的自动挖掘,从而及时准确地发现搜索引擎的badcase。

【技术实现步骤摘要】
一种搜索引擎坏例的挖掘方法和装置
】本专利技术涉及计算机应用
,特别涉及一种搜索引擎坏例(badcase)的挖掘方法和装置。【
技术介绍
】 随着计算机技术的不断发展,网络已经成为人们获取信息的主要渠道。其中搜索引擎能够通过分析理解用户查询需求和意图,在全网范围内搜索与用户query最匹配的网页。然而,由于互联网有海量的网页,网页在内容形式上差异很大,同时用户需求的表达方式也多种多样,因此搜索引擎最大的难度就在于不论用户怎样的查询都能够返回相关性最好的结果。搜索引擎内部是由诸多复杂耦合的相关性策略组合而成的,其数量和复杂程度以及相互制约关系已经到了无法完整描述的组合爆炸程度,一个策略的升级会优化部分相关性特征,同时也会影响甚至降低其他的相关性特征。换句话说,在用户层面,一些升级会提高部分query的搜索质量(即用户满意度),同时可能会降低一些未知query的搜索质量,这种对搜索质量的降低情况就是搜索引擎的坏例(bad case)。搜索引擎对内部策略的升级是十分频繁的,因此也会十分频繁的引入badcase,目前badcase的发现主要是通过人工评估,即人工搜索多个热门query和随机query,判断这些query的搜索质量。这种方式效率低下,而且只能发现少量碰巧遇到的badcase,不能及时准确地发现badcase,必然难以及时作为搜索引擎改进的决策参考。【
技术实现思路
】有鉴于此,本专利技术提供了一种搜索引擎badcase的挖掘方法和装置,以便于及时准确地发现搜索引擎的badcase。具体技术方案如下:一种搜索引擎坏例badcase的挖掘方法,该方法包括:S1、预处理过程:S11、从会话session日志中抽取一定数量的session作为样本,并从样本的各session中抽取描述搜索质量的特征向量;S12、利用各session的特征向量对所述样本进行聚类;S13、确定聚类得到的各类别的置信度,所述置信度代表搜索质量低的程度;S2、挖掘过程:S21、在待挖掘的session日志中确定同一 query下的行为序列,并从所述行为序列中抽取描述搜索质量的特征向量;S22、通过计算query的特征向量与各类别的特征向量之间的距离,确定query所属的类别;S23、如果query所属类别的置信度超过预设的高阈值,则确定搜索引擎对该query 存在 badcase。根据本专利技术一优选实施例,步骤S12和步骤S21中所述抽取描述搜索质量的特征向量为:抽取搜索后首次点击的时间间隔、最后一次点击与初次搜索的时间间隔、用户更改query后搜索持续时间、首次点击的位置、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似query进行搜索、在搜索结果中翻页的次数中的一种或任意组合的特征,将抽取的特征进行归一化后构成所述描述搜索质量的特征向量。根据本专利技术一优选实施例,所述步骤S12具体为:基于各session的特征向量之间的距离采用k-means聚类的方式对所述样本进行聚类。根据本专利技术一优选实施例,所述步骤S13具体为:根据用户在各类别中标出的搜索质量低的session在各类别中所占的比例,确定各类别的置信度。根据本专利技术一优选实施例,所述步骤S22具体包括:计算query的特征向量分别与各类别的特征向量之间的距离,将距离最近的类别确定为query所属的类别。根据本专利技术一优选实施例,所述S23还包括:如果query所属类别的置信度低于预设的低阈值,则确定搜索引擎对该query不存在badcase ;如果query所属类别的置信度在所述预设的高阈值和低阈值之间,则采用其他决策规则进一步判断;所述预设的高阈值大于所述预设的低阈值。根据本专利技术一优选实施例,所述采用其他决策规则进一步判断包括:计算session日志中该query对应的被点击URL与全网搜索中该query对应的被点击URL之间的重合度,重合度高于预设第一重合度阈值的,确定搜索引擎对该query不存在badcase,重合度低于预设第二重合度阈值的,确定搜索引擎对该query存在badcase,所述第一重合度阈值大于或等于第二重合度阈值;或者,判断该query下用户的停留时长是否超过预设的停留时长阈值,如果是,则确定搜索引擎对该query不存在badcase,否则确定搜索引擎对该query存在badcase ;或者,判断同一用户在该query之后查询的query是否与该query相关联,如果是,则确定搜索引擎对该query存在badcase,否则确定搜索引擎对该query不存在badcase。一种搜索引擎badcase的挖掘装置,该装置包括预处理单元和挖掘单元;所述预处理单元包括:样本特征抽取模块,用于从session日志中抽取一定数量的session作为样本,并从样本的各session中抽取描述搜索质量的特征向量;样本聚类模块,用于利用各session的特征向量对所述样本进行聚类;置信度确定模块,用于确定所述样本聚类模块聚类得到的各类别的置信度,所述置信度代表搜索质量低的程度;所述挖掘单元包括:查询特征抽取模块,用于在待挖掘的session日志中确定同一 query下的行为序列,并从所述行为序列中抽取描述搜索质量的特征向量;查询类别确定模块,用于通过计算query的特征向量与各类别的特征向量之间的距离,确定query所属的类别;坏例判别模块,用于如果query所属类别的置信度超过预设的高阈值,则确定搜索引擎对该query存在badcase。根据本专利技术一优选实施例,所述样本特征抽取模块和查询特征抽取模块在抽取描述搜索质量的特征向量时,具体抽取搜索后首次点击的时间间隔、最后一次点击与初次搜索的时间间隔、用户更改query后搜索持续时间、首次点击的位置、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似query进行搜索、在搜索结果中翻页的次数中的一种或任意组合的特征,将抽取的特征进行归一化后构成所述描述搜索质量的特征向量。根据本专利技术一优选实施例,所述样本聚类模炔基于各session的特征向量之间的距离采用k-means聚类的方式对所述样本进行聚类。根据本专利技术一优选实施例,所述置信度确定模块具体根据用户在各类别中标出的搜索质量低的session在各类别中所占的比例,确定各类别的置信度。根据本专利技术一优选实施例,所述查询类别确定模块具体计算query的特征向量分别与各类别的特征向量之间的距离,将距离最近的类别确定为query所属的类别。根据本专利技术一优选实施例,所述坏例判别模块,还用于如果query所属类别的置信度低于预设的低阈值,则确定搜索引擎对该query不存在badcase ;如果query所属类别的置信度在所述预设的高阈值和低阈值之间,则采用其他决策规则进一步判断;其中所述预设的高阈值大于所述预设的低阈值。根据本专利技术一优选实施例,所述坏例判别模块在采用其他决策规则进一步判断时,包括:计算session日志中该query对应的被点击URL与全网搜索中该query对应的被点击URL之间的重合度,重合度高于预设第一重合度阈值的,确定搜索引擎对该query不存在badcase,重合度低于预设第二重合度阈值的,确本文档来自技高网...

【技术保护点】
一种搜索引擎坏例badcase的挖掘方法,其特征在于,该方法包括:S1、预处理过程:S11、从会话session日志中抽取一定数量的session作为样本,并从样本的各session中抽取描述搜索质量的特征向量;S12、利用各session的特征向量对所述样本进行聚类;S13、确定聚类得到的各类别的置信度,所述置信度代表搜索质量低的程度;S2、挖掘过程:S21、在待挖掘的session日志中确定同一query下的行为序列,并从所述行为序列中抽取描述搜索质量的特征向量;S22、通过计算query的特征向量与各类别的特征向量之间的距离,确定query所属的类别;S23、如果query所属类别的置信度超过预设的高阈值,则确定搜索引擎对该query存在badcase。

【技术特征摘要】
1.一种搜索引擎坏例badcase的挖掘方法,其特征在于,该方法包括: 51、预处理过程: SI 1、从会话session日志中抽取一定数量的session作为样本,并从样本的各session中抽取描述搜索质量的特征向量; 512、利用各session的特征向量对所述样本进行聚类; 513、确定聚类得到的各类别的置信度,所述置信度代表搜索质量低的程度; 52、挖掘过程: 521、在待挖掘的session日志中确定同一query下的行为序列,并从所述行为序列中抽取描述搜索质量的特征向量; 522、通过计算query的特征向量与各类别的特征向量之间的距离,确定query所属的类别; 523、如果query所属类别的置信度超过预设的高阈值,则确定搜索引擎对该query存在 badcase。2.根据权利要求1所述的方法,其特征在于,步骤S12和步骤S21中所述抽取描述搜索质量的特征向量为:抽取搜索后首次点击的时间间隔、最后一次点击与初次搜索的时间间隔、用户更改query后搜索持续时间、首次点击的位置、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似query进行搜索、在搜索结果中翻页的次数中的一种或任意组合的特征,将抽取的特征进行归一化后构成所述描述搜索质量的特征向量。3.根据权利要求1所述的方法,其特征在于,所述步骤S12具体为:基于各session的特征向量之间的距离采用k-means聚`类的方式对所述样本进行聚类。4.根据权利要求1所述的方法,其特征在于,所述步骤S13具体为:根据用户在各类别中标出的搜索质量低的session在各类别中所占的比例,确定各类别的置信度。5.根据权利要求1所述的方法,其特征在于,所述步骤S22具体包括:计算query的特征向量分别与各类别的特征向量之间的距离,将距离最近的类别确定为query所属的类别。6.根据权利要求1所述的方法,其特征在于,所述S23还包括:如果query所属类别的置信度低于预设的低阈值,则确定搜索引擎对该query不存在badcase ; 如果query所属类别的置信度在所述预设的高阈值和低阈值之间,则采用其他决策规则进一步判断; 所述预设的高阈值大于所述预设的低阈值。7.根据权利要求6所述的方法,其特征在于,所述采用其他决策规则进一步判断包括: 计算session日志中该query对应的被点击URL与全网搜索中该query对应的被点击URL之间的重合度,重合度高于预设第一重合度阈值的,确定搜索引擎对该query不存在badcase,重合度低于预设第二重合度阈值的,确定搜索引擎对该query存在badcase,所述第一重合度阈值大于或等于第二重合度阈值;或者, 判断该query下用户的停留时长是否超过预设的停留时长阈值,如果是,则确定搜索引擎对该query不存在badcase,否则确定搜索引擎对该query存在badcase ;或者, 判断同一用户在该query之后查询的query是否与该query相关联,如果是,则确定搜索引擎对该query存在badcase,否则确定搜索引擎对该query不存在badcase。8.一种搜索引擎badcase的挖掘装置,其特征在于,该装置包括预处理...

【专利技术属性】
技术研发人员:张鑫阮星华李卓
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1