搜索引擎的质量评估方法和装置制造方法及图纸

技术编号:13202225 阅读:71 留言:0更新日期:2016-05-12 10:58
本发明专利技术公开了一种搜索引擎的质量评估方法和装置,该搜索引擎用于搜索多媒体资源,该质量评估方法包括:从用户日志获取单一查询词的用户深度停留数据;根据单一查询词的用户深度停留数据,获得全量查询词的用户深度停留数据;以及根据全量查询词的用户深度停留数据和原始评估指标,对搜索引擎的质量进行原始评估,其中,原始评估指标包括独立被点击多媒体资源的个数、每个查询词的被点击多媒体资源的平均个数、低于多媒体资源个数阈值的查询词的个数、多媒体资源播放完成比总体平均值、低于多媒体资源播放完成比阈值的查询词的个数中的至少一个。本发明专利技术能够无需进行人工标注、客观及时地对搜索引擎的质量进行评估。

【技术实现步骤摘要】

本专利技术涉及信息搜索和检索领域,尤其涉及一种搜索引擎的质量评估方法和装 置。
技术介绍
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序搜集互 联网上的信息,在对信息进行组织和处理后,将处理后的信息显示给用户,即,搜索引擎是 为用户提供检索服务的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引 擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。 搜索引擎的质量评估一直受到产业界和研究人员的广泛关注。目前,Cranfield评 价体系被广泛地应用于搜索引擎的质量评估,该评价体系是由查询样例集、正确答案集、评 测指标这三个部分构成的完整评测方案。使用Cranfield评价体系进行搜索引擎的质量评 估时,包含以下三个环节:首先,抽取代表性的查询词(query),将抽取出的查询词组成一个 规模适当的查询样例集;然后,针对该查询样例集,从搜索引擎的语料库中寻找与其相对应 的结果,即进行人工标注;最后,将抽取出的查询词和带有标注信息的语料库输入检索系 统,检索系统反馈结果,再针对搜索引擎反馈的结果,使用预先定义的评价计算公式、利用 数值化的方法来评价搜索引擎反馈的结果与标注的理想结果的接近程度。 其中,存在多种评价搜索引擎反馈的结果的方法,例如准确率-召回率 (Precision-Recall)方法、单值评价(Precision·)方法、平均排序倒数(Mean Reciprocal Ranking,简称MRR)方法、平均准确率均值(Mean Average Precision,简称MAP)方法和折损 累积增益(Discounted Cumulative Gain,简称DCG)方法等。 然而,由于传统的信息检索系统数据和业务量通常不大,检索输入也相对规范,因 此能够人工选取样例集和人工标注样例结果(标准答案),但是,随着互联网的不断发展与 互联网信息量的增加,线上搜索引擎的业务繁忙并且数据海量,利用人工标注答案的方式 进行网络信息检索系统的评价是一个既耗费人力又耗费时间的过程,已经不可能利用人工 标注答案的方式来进行答案的标注。也就是说,Cranfield评价体系的缺点在于需要人工选 取样例集并且需要人工标注样例结果。 为了解决上述Cranfield评价体系的人工标注既耗费人力又耗费时间的问题,提 出了A/B测试(A/B testing)系统。A/B测试系统在用户搜索时,由系统来自动决定用户的分 组号(Bucket ID),通过自动抽取流量导入不同分支,使得相应分组的用户看到不同产品版 本(或不同搜索引擎)提供的结果。用户在不同版本产品下的行为将被记录下来,这些行为 数据通过数据分析形成一系列指标,再通过比较这些指标来获得各个产品版本之间孰优孰 劣的结论。其中,在指标计算时,可以细分为基于专家评分的方法和基于点击统计的方法这 两种方法。 然而,随着互联网业务的发展,对于搜索引擎结果质量优化的及时性的要求也越 来越高,传统的A/B测试系统发现搜索引擎的问题需要一定的专家打分时间,并且,由于长 尾效应(Long Tail Effect),A/B测试系统中涉及查询词的优异表现不能对整个系统的优 异表现作出良好映射。也就是说,A/B测试系统的问题在于面对互联网业务规模的力不从 心。 此外,诸如视频搜索引擎等的其它富媒体(Rich Media)搜索引擎的搜索结果有其 自身的特点。用户对于结果视频的满意与否,不能简单的通过命中、播放量或排序来衡量。 很多情况下,用户需要通过观看视频才能有一个比较客观的评价。这使得传统的以文本搜 索为主的引擎评价方法无法适用于视频这种"深度语义"的视频搜索引擎的质量评价。而 且,许多线上视频搜索结果页的布局不再是文本搜索引擎中常用的列表式而是网格式,这 弱化了传统意义上的位置。因此,基于位置进行评估是有失公平的。然而,不管是Cranfield 评价体系还是A/B测试系统,都没有给出视频搜索引擎的质量评估的有针对性的解决方案。
技术实现思路
技术问题 有鉴于此,本专利技术要解决的技术问题是,如何客观及时地对搜索引擎的质量进行 评估。 解决方案 为了解决上述技术问题,在第一方面,本专利技术提供了一种搜索引擎的质量评估方 法,所述搜索引擎用于搜索多媒体资源,所述质量评估方法包括: 从用户日志获取单一查询词的用户深度停留数据,其中,所述单一查询词的用户 深度停留数据包括:查询词、被点击多媒体资源集合、多媒体资源播放完成比集合、以及所 述被点击多媒体资源集合到所述多媒体资源播放完成比集合的映射函数; 根据所述单一查询词的用户深度停留数据,获得全量查询词的用户深度停留数 据,其中,所述全量查询词的用户深度停留数据包括:全量查询词、当前查询词下的被点击 多媒体资源、当前查询词下的被点击多媒体资源的被点击次数、以及当前查询词下的被点 击多媒体资源的综合播放完成比;以及 根据所述全量查询词的用户深度停留数据和原始评估指标,对所述搜索引擎的质 量进行原始评估, 其中,所述原始评估指标包括独立被点击多媒体资源的个数、每个查询词的被点 击多媒体资源的平均个数、低于多媒体资源个数阈值的查询词的个数、多媒体资源播放完 成比总体平均值、低于多媒体资源播放完成比阈值的查询词的个数中的至少一个。 结合第一方面,在第一种可能的实现方式中,所述质量评估方法还包括: 根据所述单一查询词的用户深度停留数据,计算所述单一查询词的用户深度停留 指数;以及 根据所述用户深度停留指数和综合评估指标,对所述搜索引擎的质量进行综合评 估, 其中,所述综合评估指标包括用户深度停留指数平均值和低于用户深度停留指数 阈值的查询词的个数中的至少一个。 结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述根据 所述单一查询词的用户深度停留数据,计算所述单一查询词的用户深度停留指数,包括: 根据所述单一查询词的用户深度停留数据并采用4十算所述单一查 询词的用户深度停留指数, 其中,y是所述单一查询词的用户深度停留指数, X = Vi dCount*Cl i ckCount*AveragePerc,Vi dCount 是独立被点击多媒体资源的个 数,ClickCount是被点击多媒体资源的次数,AveragePerc是多媒体资源的播放完成比平均 值。 结合第一方面的第一种可能的实现方式,在第三种可能的实现方式中,所述根据 所述单一查询词的用户深度停留数据,计算所述单一查询词的用户深度停留指数,包括: 根据所述单一查询词的用户深度停留数据并采用公式y = VidCountN* Cl ickCountN*AveragePercN,计算所述单一查询词的用户深度停留指数, 其中,y是所述单一查询词的用户深度停留指数, VidCount是独立被点击多媒体资源的个数,ClickCount是被点击多媒体资源的次 数,AveragePerc是多媒体资源的播放完成比平均值,min〇取最小值,max()取最大值。 结合第一方面的第一种可能的实现方式,在第四种可能的实现方式中,所述根据 所述单一查询词的用户深度停留数据,计算所述单一查询词的用户深度停留指数,包括: 根据所述单一查询词的用户深度停留数据并计算所本文档来自技高网
...

【技术保护点】
一种搜索引擎的质量评估方法,所述搜索引擎用于搜索多媒体资源,其特征在于,所述质量评估方法包括:从用户日志获取单一查询词的用户深度停留数据,其中,所述单一查询词的用户深度停留数据包括:查询词、被点击多媒体资源集合、多媒体资源播放完成比集合、以及所述被点击多媒体资源集合到所述多媒体资源播放完成比集合的映射函数;根据所述单一查询词的用户深度停留数据,获得全量查询词的用户深度停留数据,其中,所述全量查询词的用户深度停留数据包括:全量查询词、当前查询词下的被点击多媒体资源、当前查询词下的被点击多媒体资源的被点击次数、以及当前查询词下的被点击多媒体资源的综合播放完成比;以及根据所述全量查询词的用户深度停留数据和原始评估指标,对所述搜索引擎的质量进行原始评估,其中,所述原始评估指标包括独立被点击多媒体资源的个数、每个查询词的被点击多媒体资源的平均个数、低于多媒体资源个数阈值的查询词的个数、多媒体资源播放完成比总体平均值、低于多媒体资源播放完成比阈值的查询词的个数中的至少一个。

【技术特征摘要】

【专利技术属性】
技术研发人员:魏博齐志兵李力行邹敏唐广宇顾思斌潘柏宇王冀
申请(专利权)人:合一网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1