搜索引擎的质量评估方法和装置制造方法及图纸

技术编号：13202225 阅读：72 留言：0更新日期：2016-05-12 10:58

本发明专利技术公开了一种搜索引擎的质量评估方法和装置，该搜索引擎用于搜索多媒体资源，该质量评估方法包括：从用户日志获取单一查询词的用户深度停留数据；根据单一查询词的用户深度停留数据，获得全量查询词的用户深度停留数据；以及根据全量查询词的用户深度停留数据和原始评估指标，对搜索引擎的质量进行原始评估，其中，原始评估指标包括独立被点击多媒体资源的个数、每个查询词的被点击多媒体资源的平均个数、低于多媒体资源个数阈值的查询词的个数、多媒体资源播放完成比总体平均值、低于多媒体资源播放完成比阈值的查询词的个数中的至少一个。本发明专利技术能够无需进行人工标注、客观及时地对搜索引擎的质量进行评估。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息搜索和检索领域，尤其涉及一种搜索引擎的质量评估方法和装置。
技术介绍
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息，在对信息进行组织和处理后，将处理后的信息显示给用户，即，搜索引擎是为用户提供检索服务的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。搜索引擎的质量评估一直受到产业界和研究人员的广泛关注。目前，Cranfield评价体系被广泛地应用于搜索引擎的质量评估，该评价体系是由查询样例集、正确答案集、评测指标这三个部分构成的完整评测方案。使用Cranfield评价体系进行搜索引擎的质量评估时，包含以下三个环节:首先，抽取代表性的查询词(query)，将抽取出的查询词组成一个规模适当的查询样例集;然后，针对该查询样例集，从搜索引擎的语料库中寻找与其相对应的结果，即进行人工标注；最后，将抽取出的查询词和带有标注信息的语料库输入检索系统，检索系统反馈结果，再针对搜索引擎反馈的结果，使用预先定义的评价计算公式、利用数值化的方法来评价搜索引擎反馈的结果与标注的理想结果的接近程度。其中，存在多种评价搜索引擎反馈的结果的方法，例如准确率-召回率 (Precision-Recall)方法、单值评价(Precision·)方法、平均排序倒数(Mean Reciprocal Ranking，简称MRR)方法、平均准确率均值(Mean Average Precision，简称MAP)方法和折损累积增益(...

【技术保护点】
一种搜索引擎的质量评估方法，所述搜索引擎用于搜索多媒体资源，其特征在于，所述质量评估方法包括：从用户日志获取单一查询词的用户深度停留数据，其中，所述单一查询词的用户深度停留数据包括：查询词、被点击多媒体资源集合、多媒体资源播放完成比集合、以及所述被点击多媒体资源集合到所述多媒体资源播放完成比集合的映射函数；根据所述单一查询词的用户深度停留数据，获得全量查询词的用户深度停留数据，其中，所述全量查询词的用户深度停留数据包括：全量查询词、当前查询词下的被点击多媒体资源、当前查询词下的被点击多媒体资源的被点击次数、以及当前查询词下的被点击多媒体资源的综合播放完成比；以及根据所述全量查询词的用户深度停留数据和原始评估指标，对所述搜索引擎的质量进行原始评估，其中，所述原始评估指标包括独立被点击多媒体资源的个数、每个查询词的被点击多媒体资源的平均个数、低于多媒体资源个数阈值的查询词的个数、多媒体资源播放完成比总体平均值、低于多媒体资源播放完成比阈值的查询词的个数中的至少一个。

【技术特征摘要】

【专利技术属性】
技术研发人员：魏博，齐志兵，李力行，邹敏，唐广宇，顾思斌，潘柏宇，王冀，
申请(专利权)人：合一网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人