一种搜索引擎坏例的挖掘方法和装置制造方法及图纸

技术编号：9667955 阅读：143 留言：0更新日期：2014-02-14 06:26

本发明专利技术提供了一种搜索引擎坏例（badcase）的挖掘方法和装置，其中方法包括：预处理过程：从会话（session）日志中抽取一定数量的session作为样本，并从样本的各session中抽取描述搜索质量的特征向量；利用各session的特征向量对样本进行聚类；确定聚类得到的各类别的置信度，置信度代表搜索质量低的程度；挖掘过程：在待挖掘的session日志中确定同一query下的行为序列，并从行为序列中抽取描述搜索质量的特征向量；通过计算query的特征向量与各类别的特征向量之间的距离，确定query所属的类别；如果query所属类别的置信度超过预设的高阈值，则确定搜索引擎对该query存在badcase。本发明专利技术能够实现搜索引擎badcase的自动挖掘，从而及时准确地发现搜索引擎的badcase。

全部详细技术资料下载

【技术实现步骤摘要】
一种搜索引擎坏例的挖掘方法和装置【
】本专利技术涉及计算机应用
，特别涉及一种搜索引擎坏例(badcase)的挖掘方法和装置。【
技术介绍
】随着计算机技术的不断发展，网络已经成为人们获取信息的主要渠道。其中搜索引擎能够通过分析理解用户查询需求和意图，在全网范围内搜索与用户query最匹配的网页。然而，由于互联网有海量的网页，网页在内容形式上差异很大，同时用户需求的表达方式也多种多样，因此搜索引擎最大的难度就在于不论用户怎样的查询都能够返回相关性最好的结果。搜索引擎内部是由诸多复杂耦合的相关性策略组合而成的，其数量和复杂程度以及相互制约关系已经到了无法完整描述的组合爆炸程度，一个策略的升级会优化部分相关性特征，同时也会影响甚至降低其他的相关性特征。换句话说，在用户层面，一些升级会提高部分query的搜索质量(即用户满意度)，同时可能会降低一些未知query的搜索质量,这种对搜索质量的降低情况就是搜索引擎的坏例(bad case)。搜索引擎对内部策略的升级是十分频繁的，因此也会十分频繁的引入badcase，目前badcase的发现主要是通过人工评...

【技术保护点】
一种搜索引擎坏例badcase的挖掘方法，其特征在于，该方法包括：S1、预处理过程：S11、从会话session日志中抽取一定数量的session作为样本，并从样本的各session中抽取描述搜索质量的特征向量；S12、利用各session的特征向量对所述样本进行聚类；S13、确定聚类得到的各类别的置信度，所述置信度代表搜索质量低的程度；S2、挖掘过程：S21、在待挖掘的session日志中确定同一query下的行为序列，并从所述行为序列中抽取描述搜索质量的特征向量；S22、通过计算query的特征向量与各类别的特征向量之间的距离，确定query所属的类别；S23、如果query所属类别的置信...

【技术特征摘要】
1.一种搜索引擎坏例badcase的挖掘方法，其特征在于，该方法包括: 51、预处理过程: SI 1、从会话session日志中抽取一定数量的session作为样本,并从样本的各session中抽取描述搜索质量的特征向量； 512、利用各session的特征向量对所述样本进行聚类； 513、确定聚类得到的各类别的置信度，所述置信度代表搜索质量低的程度； 52、挖掘过程: 521、在待挖掘的session日志中确定同一query下的行为序列，并从所述行为序列中抽取描述搜索质量的特征向量； 522、通过计算query的特征向量与各类别的特征向量之间的距离,确定query所属的类别； 523、如果query所属类别的置信度超过预设的高阈值,则确定搜索引擎对该query存在 badcase。2.根据权利要求1所述的方法，其特征在于，步骤S12和步骤S21中所述抽取描述搜索质量的特征向量为:抽取搜索后首次点击的时间间隔、最后一次点击与初次搜索的时间间隔、用户更改query后搜索持续时间、首次点击的位置、最后一次点击的位置、搜索后的总点击次数、用户在搜索后是否紧随着更换了一个相似query进行搜索、在搜索结果中翻页的次数中的一种或任意组合的特征，将抽取的特征进行归一化后构成所述描述搜索质量的特征向量。3.根据权利要求1所述的方法，其特征在于，所述步骤S12具体为:基于各session的特征向量之间的距离采用k-means聚`类的方式对所述样本进行聚类。4.根据权利要求1所述的方法，其特征在于，所述步骤S13具体为:根据用户在各类别中标出的搜索质量低的session在各类别中所占的比例，确定各类别的置信度。5.根据权利要求1所述的方法，其特征在于，所述步骤S22具体包括:计算query的特征向量分别与各类别的特征向量之间的距离，将距离最近的类别确定为query所属的类别。6.根据权利要求1所述的方法，其特征在于，所述S23还包括:如果query所属类别的置信度低于预设的低阈值，则确定搜索引擎对该query不存在badcase ；如果query所属类别的置信度在所述预设的高阈值和低阈值之间，则采用其他决策规则进一步判断；所述预设的高阈值大于所述预设的低阈值。7.根据权利要求6所述的方法，其特征在于，所述采用其他决策规则进一步判断包括: 计算session日志中该query对应的被点击URL与全网搜索中该query对应的被点击URL之间的重合度，重合度高于预设第一重合度阈值的，确定搜索引擎对该query不存在badcase,重合度低于预设第二重合度阈值的,确定搜索引擎对该query存在badcase,所述第一重合度阈值大于或等于第二重合度阈值；或者，判断该query下用户的停留时长是否超过预设的停留时长阈值，如果是，则确定搜索引擎对该query不存在badcase,否则确定搜索引擎对该query存在badcase ;或者，判断同一用户在该query之后查询的query是否与该query相关联,如果是,则确定搜索引擎对该query存在badcase,否则确定搜索引擎对该query不存在badcase。8.一种搜索引擎badcase的挖掘装置，其特征在于，该装置包括预处理...

【专利技术属性】
技术研发人员：张鑫，阮星华，李卓，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人