一种搜索质量的评测方法、装置及电子设备制造方法及图纸

技术编号:15724578 阅读:390 留言:0更新日期:2017-06-29 10:36
本申请公开了一种搜索质量的评测方法、装置及电子设备,以及一种搜索引擎坏例的挖掘方法、装置及电子设备。其中所述搜索质量的评测方法包括:获取待评测搜索结果的对搜索质量产生影响的质量特征;根据质量特征,通过预先生成的搜索结果分类器,获取待评测搜索结果的搜索质量。采用本申请提供的方法,能够根据新增质量评测结果更新搜索结果分类器,以提高搜索结果分类器的模型准确度,从而达到提高搜索质量的评测准确度的效果。

【技术实现步骤摘要】
一种搜索质量的评测方法、装置及电子设备
本申请涉及搜索引擎
,具体涉及一种搜索质量的评测方法、装置及电子设备。本申请同时涉及一种搜索引擎坏例的挖掘方法、装置及电子设备。
技术介绍
在搜索引擎
中,搜索引擎系统的复杂性导致无法对每一个查询词都能给出最好的搜索结果,存在一些用户需求没有满足、体验不好的情况,即:搜索坏例(badcase)。为避免将搜索坏例展示给用户,搜索引擎系统需要提前发现并解决可能存在的搜索坏例,以保证搜索结果的质量,从而提高用户体验。目前,常用的搜索坏例的挖掘方法包括:人工挖掘法和基于规则的挖掘法。下面对这两种方法的原理及优缺点进行简要说明。1)人工挖掘法该方式是最原始的方法,完全依赖于人工进行搜索坏例的挖掘。由于该方法过分依赖于人的经验,因此,有经验的人对搜索坏例具有较强的识别能力,而经验少的人则很难发现搜索坏例。可见,该方法存在以下缺点:耗费大量人力、挖掘效率低、坏例发现量少且随机性大,因此,该方法无法解决根本问题。2)基于规则的挖掘法该方法通过预先设定的规则筛选出搜索坏例。然而,筛选规则的设定依赖于规则制定人员的经验,并且在运营过程中需要相关人力不断介入,以更新规则、增加新规则,从而提高搜索坏例的识别精度。此外,2012年百度公司申请了一个名称为《一种搜索引擎坏例的挖掘方法和装置》的中国专利,该专利的公开号为103577464A。该专利提出的搜索引擎坏例的挖掘方法包括如下步骤:1)在待挖掘的session日志中确定同一query下的行为序列,并从所述行为序列中抽取描述搜索质量的特征向量;2)通过计算query的特征向量与各类别的特征向量之间的距离,确定query所属的类别;3)如果query所属类别的置信度超过预设的高阈值,则确定搜索引擎对该query存在badcase。通过分析该专利给出的技术方案,能够发现该技术方案未实现闭环,即:无法根据新发现的搜索坏例正向影响挖掘模型,以调优挖掘模型,从而提高挖掘模型的识别精度。综上所述,现有技术存在对搜索结果的质量评测准确度低的问题。
技术实现思路
本申请提供一种搜索质量的评测方法、装置及电子设备,以解决现有技术存在对搜索结果的质量评测准确度低的问题。本申请另外提供一种搜索坏例的挖掘方法、装置及电子设备。本申请提供一种搜索质量的评测方法,包括:获取待评测搜索结果的对搜索质量产生影响的质量特征;根据所述待评测搜索结果的所述质量特征,通过预先生成的搜索结果分类器,获取所述待评测搜索结果的搜索质量。可选的,还包括:通过机器学习算法,从历史搜索结果的质量特征与质量评测记录集中学习获得所述搜索结果分类器。可选的,在所述从历史搜索结果的质量特征与质量评测记录集中学习获得所述搜索结果分类器之前,还包括:获取所述历史搜索结果的质量特征与质量评测记录集。可选的,所述获取所述历史搜索结果的质量特征与质量评测记录集,包括:针对各个所述历史搜索结果,根据所述历史搜索结果对应的查询词,对搜索日志进行检索,获取所述历史搜索结果的统计数据集;根据所述历史搜索结果的统计数据集,生成所述历史搜索结果的所述质量特征;将生成的所述历史搜索结果的所述质量特征,以及对所述历史搜索结果的质量评测结果的对应记录的集合,作为所述历史搜索结果的质量特征与质量评测记录集。可选的,在所述根据所述历史搜索结果的统计数据集,生成所述历史搜索结果的所述质量特征之后,还包括:对未归一化的质量特征进行归一化处理,形成归一化的质量特征。可选的,所述机器学习算法包括分类算法;所述分类算法包括决策树算法。可选的,如果所述待评测搜索结果的搜索质量为坏例,则所述方法还包括:获取对所述待评测搜索结果的搜索质量的人工评测结果;根据所述待评测搜索结果的所述质量特征和所述人工评测结果,更新所述搜索结果分类器。可选的,所述更新所述搜索结果分类器,包括:将所述待评测搜索结果的所述质量特征与所述人工评测结果的对应记录增加到所述历史搜索结果的质量特征与质量评测记录集中;通过所述机器学习算法,从更新后的历史搜索结果的质量特征与质量评测记录集中学习获得更新后的搜索结果分类器。可选的,还包括:生成所述待评测搜索结果的所述质量特征。可选的,所述生成所述待评测搜索结果的所述质量特征,包括:根据所述待评测搜索结果对应的查询词,对搜索日志进行检索,获取所述待评测搜索结果的统计数据集;根据所述待评测搜索结果的统计数据集,生成所述待评测搜索结果的所述质量特征。可选的,在所述根据所述统计数据集,生成所述质量特征之后,还包括:对未归一化的质量特征进行归一化处理,形成归一化的质量特征。可选的,还包括:获取所述待评测搜索结果。可选的,所述获取所述待评测搜索结果,包括:以预设选取规则为查询条件,对所述搜索日志进行检索,获取符合所述预设选取规则的历史查询词;从所述符合所述预设选取规则的历史查询词中选取特定历史查询词,将与其对应的历史搜索结果作为所述待评测搜索结果。可选的,所述质量特征包括搜索结果的页面浏览数量,所述预设选取规则包括:所述历史查询词对应的所述搜索结果的页面浏览数量大于预设的页面浏览量阈值。可选的,如果所述待评测搜索结果的搜索质量为坏例,则所述方法还包括:显示所述待评测搜索结果。可选的,所述质量特征包括:搜索结果的数量、搜索结果的页面浏览数量、浏览搜索结果的用户数量、搜索结果的点击数量、点击搜索结果的用户数量、搜索结果的成交数量和搜索结果的支付数量的至少一者。可选的,所述搜索质量包括优例、坏例或不确定。相应的,本申请还提供一种搜索质量的评测装置,包括:获取特征单元,用于获取待评测搜索结果的对搜索质量产生影响的质量特征;评测单元,用于根据所述待评测搜索结果的所述质量特征,通过预先生成的搜索结果分类器,获取所述待评测搜索结果的搜索质量。可选的,还包括:训练单元,用于通过机器学习算法,从历史搜索结果的质量特征与质量评测记录集中学习获得所述搜索结果分类器。可选的,还包括:获取训练集单元,用于获取所述历史搜索结果的质量特征与质量评测记录集。可选的,所述获取训练集单元包括:检索子单元,用于针对各个所述历史搜索结果,根据所述历史搜索结果对应的查询词,对搜索日志进行检索,获取所述历史搜索结果的统计数据集;生成子单元,用于根据所述历史搜索结果的统计数据集,生成所述历史搜索结果的所述质量特征;合成子单元,用于将生成的所述历史搜索结果的所述质量特征,以及对所述历史搜索结果的质量评测结果的对应记录的集合,作为所述历史搜索结果的质量特征与质量评测记录集。可选的,所述获取训练集单元还包括:归一化处理子单元,用于对未归一化的质量特征进行归一化处理,形成归一化的质量特征。可选的,还包括:获取新样本单元,用于获取对所述待评测搜索结果的搜索质量的人工评测结果;更新分类器单元,用于根据所述待评测搜索结果的所述质量特征和所述人工评测结果,更新所述搜索结果分类器。可选的,所述更新分类器单元包括:更新训练集子单元,用于将所述待评测搜索结果的所述质量特征与所述人工评测结果的对应记录增加到所述历史搜索结果的质量特征与质量评测记录集中;训练子单元,用于通过所述机器学习算法,从更新后的历史搜索结果的质量特征与质量评测记录集中学习获得更新后的搜索结果分类器。可选的,还本文档来自技高网
...
一种搜索质量的评测方法、装置及电子设备

【技术保护点】
一种搜索质量的评测方法,其特征在于,包括:获取待评测搜索结果的对搜索质量产生影响的质量特征;根据所述待评测搜索结果的所述质量特征,通过预先生成的搜索结果分类器,获取所述待评测搜索结果的搜索质量。

【技术特征摘要】
1.一种搜索质量的评测方法,其特征在于,包括:获取待评测搜索结果的对搜索质量产生影响的质量特征;根据所述待评测搜索结果的所述质量特征,通过预先生成的搜索结果分类器,获取所述待评测搜索结果的搜索质量。2.根据权利要求1所述的搜索质量的评测方法,其特征在于,还包括:通过机器学习算法,从历史搜索结果的质量特征与质量评测记录集中学习获得所述搜索结果分类器。3.根据权利要求2所述的搜索质量的评测方法,其特征在于,在所述从历史搜索结果的质量特征与质量评测记录集中学习获得所述搜索结果分类器之前,还包括:获取所述历史搜索结果的质量特征与质量评测记录集。4.根据权利要求3所述的搜索质量的评测方法,其特征在于,所述获取所述历史搜索结果的质量特征与质量评测记录集,包括:针对各个所述历史搜索结果,根据所述历史搜索结果对应的查询词,对搜索日志进行检索,获取所述历史搜索结果的统计数据集;根据所述历史搜索结果的统计数据集,生成所述历史搜索结果的所述质量特征;将生成的所述历史搜索结果的所述质量特征,以及对所述历史搜索结果的质量评测结果的对应记录的集合,作为所述历史搜索结果的质量特征与质量评测记录集。5.根据权利要求4所述的搜索质量的评测方法,其特征在于,在所述根据所述历史搜索结果的统计数据集,生成所述历史搜索结果的所述质量特征之后,还包括:对未归一化的质量特征进行归一化处理,形成归一化的质量特征。6.根据权利要求2所述的搜索质量的评测方法,其特征在于,所述机器学习算法包括分类算法;所述分类算法包括决策树算法。7.根据权利要求2所述的搜索结果质量的评测方法,其特征在于,如果所述待评测搜索结果的搜索质量为坏例,则所述方法还包括:获取对所述待评测搜索结果的搜索质量的人工评测结果;根据所述待评测搜索结果的所述质量特征和所述人工评测结果,更新所述搜索结果分类器。8.根据权利要求7所述的搜索结果质量的评测方法,其特征在于,所述更新所述搜索结果分类器,包括:将所述待评测搜索结果的所述质量特征与所述人工评测结果的对应记录增加到所述历史搜索结果的质量特征与质量评测记录集中;通过所述机器学习算法,从更新后的历史搜索结果的质量特征与质量评测记录集中学习获得更新后的搜索结果分类器。9.根据权利要求1所述的搜索质量的评测方法,其特征在于,还包括:生成所述待评测搜索结果的所述质量特征。10.根据权利要求9所述的搜索质量的评测方法,其特征在于,所述生成所述待评测搜索结果的所述质量特征,包括:根据所述待评测搜索结果对应的查询词,对搜索日志进行检索,获取所述待评测搜索结果的统计数据集;根据所述待评测搜索结果的统计数据集,生成所述待评测搜索结果的所述质量特征。11.根据权利要求10所述的搜索质量的评测方法,其特征在于,在所述根据所述统计数据集,生成所述质量特征之后,还包括:对未归一化的质量特征进行归一化处理,形成归一化的质量特征。12.根据权利要求1所述的搜索质量的评测方法,其特征在于,还包括:获取所述待评测搜索结果。13.根据权利要求12所述的搜索质量的评测方法,其特征在于,所述获取所述待评测搜索结果,包括:以预设选取规则为查询条件,对所述搜索日志进行检索,获取符合所述预设选取规则的历史查询词;从所述符合所述预设选取规则的历史查询词中选取特定历史查询词,将与其对应的历史搜索结果作为所述待评测搜索结果。14.根据权利要求13所述的搜索质量的评测方法,其特征在于,所述质量特征包括搜索结果的页面浏览数量,所述预设选取规则包括:所述历史查询词对应的所述搜索结果的页面浏览数量大于预设的页面浏览量阈值。15.根据权利要求1所述的搜索质量的评测方法,其特征在于,如果所述待评测搜索结果的搜索质量为坏例,则所述方法还包括:显示所述待评测搜索结果。16.根据权利要求1所述的搜索质量的评测方法,其特征在于,所述质量特征包括:搜索结果的数量、搜索结果的页面浏览数量、浏览搜索结果的用户数量、搜索结果的点击数量、点击搜索结果的用户数量、搜索结果的成交数量和搜索结果的支付数量的至少一者。17.根据权利要求1所述的搜索结果质量的评测方法,其特征在于,所述搜索质量包括优例、坏例或不确定。18.一种搜索质量的评测装置,其特征在于,包括:获取特征单元,用于获取待评测搜索结果的对搜索质量产生影响的质量特征;评测单元,用于根据所述待评测搜索结果的所述质量特征,通过预先生成的搜索结果分类器,获取所述待评测搜索结果的搜索质量。19.根据权利要求18所述的搜索质量的评测装置,其特征在于,还包括:训练单元,用于通过机器学习算法,从历史搜索结果的质量特征与质量评测记录集中学习获得所述搜索结果分类器。20.根据权利要求19所述的搜索质量的评测装置,其特征在于,还包括:获取训练集单元,用于获取所述历史搜索结果的质量特征与质量评测记录集。21.根据权利要求20所述的搜索质量的评测装置,其特征在于,所述获取训练集单元包括:检索子单元,用于针对各个所述历史搜索结果,根据所述历史搜索结果对应的查询词,对搜索日志进行检索,获取所述历史搜索结果的统计数据集;生成子单元,用于根据所述历史搜索结果的统计数据集,生成所述历史搜索结果的所述质量特征;合成子单元,用于将生成的所述历史搜索结果的所述...

【专利技术属性】
技术研发人员:郑小波孙靓张超
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1