搜索引擎的虚假搜索行为的识别方法和装置制造方法及图纸

技术编号:13202178 阅读:75 留言:0更新日期:2016-05-12 10:56
本发明专利技术公开了一种搜索引擎的虚假搜索行为的识别方法和装置,该搜索引擎用于搜索多媒体资源,该识别方法包括:从用户日志获取单一查询词的用户观看行为数据和单一查询词的用户转化行为数据;根据用户观看行为数据和/或用户转化行为数据确定用于识别虚假搜索行为的识别数据,识别数据包括独立多媒体资源播放量、多媒体资源平均播放完成比、多媒体资源点击发散度、以及多媒体资源集播放残余度中的至少一个;以及根据识别数据识别虚假搜索行为。本发明专利技术能够提高识别虚假搜索行为的准确率,还能够自动地识别全量查询词的虚假搜索行为。

【技术实现步骤摘要】

本专利技术涉及信息搜索和检索领域,尤其涉及一种搜索引擎的虚假搜索行为的识别 方法和装置。
技术介绍
目前,没有统一成熟的方法来对用于搜索多媒体资源的搜索引擎的虚假搜索行为 进行识别。一般情况下,只有在需要识别搜索引擎的虚假搜索行为的情况下,搜索引擎才会 根据自己的业务需求来开展虚假搜索行为的识别工作。随着搜索引擎的业务系统日渐成 熟、搜索引擎的处理能力和健壮性的日渐提升,基本上能够容忍搜索引擎的虚假搜索行为, 即,基本上不需要识别搜索引擎的虚假搜索行为。例如,只有在个别的虚假搜索行为影响了 搜索引擎的系统服务质量的情况下,工程人员才会有针对性的开展虚假搜索行为的识别工 作。 并且,对搜索引擎的虚假搜索行为进行识别是比较困难的,原因在于: (1)在现有技术中,搜索引擎的虚假搜索行为没有严格的定义而仅具有如下的简 单定义:搜索引擎的虚假搜索行为是指用户并非以真正搜索多媒体资源并观看多媒体资源 为目的的搜索行为。也就是说,如果用户的搜索意图并不在于搜索并观看多媒体资源,则该 查询词可能为虚假搜索行为。这使得识别搜索引擎的虚假搜索行为是困难的。例如,只能按 照主观理解来判断用户的搜索意图、并基于用户的搜索意图是否是搜索并观看多媒体资源 来进一步识别该查询词的搜索行为是否是虚假搜索行为。 (2)搜索引擎的虚假搜索行为一般都是隐蔽的。具体而言,由于用户位于搜索引擎 的前端、而工程师位于搜索引擎的后端,并且用户和搜索引擎的实际交互入口只有查询词, 因此,工程师不可能也不合适与每个用户进行面对面、一对一的搜索意图确认,由此导致了 识别搜索引擎的虚假搜索行为是困难的。 (3)搜索引擎的虚假搜索行为具有机动性。具体而言,由于搜索引擎的虚假搜索行 为的来源比较多样,例如,用户主动输入、(通过模仿或者嵌套搜索样式链接到访问量大的 搜索引擎的)外部网站链接、模仿IP地址等,因此,虚假搜索行为在时间和空间上可能难以 维持稳定的特征。例如,对于同一个查询词,第一天的诸如点击、播放、IP地址等的关键指标 可能与第二天的诸如点击、播放、IP地址等的关键指标相差较大。这也给搜索引擎的虚假搜 索行为的识别带来了困难。 (4)通常,搜索引擎的虚假搜索行为的识别是滞后和被动的。一方面,由于互联网 用户的多样性和长尾需求的存在,因此不可能针对一次搜索行为来判断该搜索行为是否是 虚假搜索行为。通常情况下,只有需要识别虚假搜索行为,才通过对特定时间段和IP地址段 的请求进行分析来判断搜索行为是否是虚假搜索行为,但是这种判断仍然是滞后的。事实 上,当前模仿随机IP地址的技术已经非常成熟,通过分析IP地址来识别虚假搜索行为可能 并不合适。另一方面,由于识别集中数据的虚假搜索行为可能需要第二天的完整日志,因此 对全量查询词的虚假搜索行为进行人工分析是不现实的。 另外,诸如视频、音频等的多媒体资源的虚假搜索行为主要体现在以下两个方面: (1) 仅有搜索多媒体资源的行为而没有点击多媒体资源的行为,该类行为主要体现在虽然 有大量的搜索输入但是没有相应的点击多媒体资源的行为以及命中多媒体资源的行为; (2) 仅有点击多媒体资源的行为而没有播放多媒体资源的行为,该类行为主要体现在虽然 有点击多媒体资源的行为但是没有后续的观看多媒体资源的行为。 现有的搜索引擎的虚假搜索行为的识别工作基本上是基于查询词在短时间内的 爆发特性和IP地址分布来确定查询词的搜索行为是否包含虚假搜索行为。该识别方法可能 对于有搜索多媒体资源的行为而没有点击多媒体资源的行为的虚假搜索行为是有效果的, 然而对于有点击多媒体资源的行为而没有播放多媒体资源的虚假搜索行为可能是没有效 果的。并且,随着当前爬虫技术的发展,伪造 IP地址的爬虫行为使得虚假搜索行为的识别更 加困难。另外,当前也无法自动地识别全量查询词的虚假搜索行为。
技术实现思路
技术问题 有鉴于此,本专利技术要解决的技术问题是,如何识别搜索引擎的虚假搜索行为。 解决方案 为了解决上述技术问题,在第一方面,本专利技术提供了一种搜索引擎的虚假搜索行 为的识别方法,所述搜索引擎用于搜索多媒体资源,所述识别方法包括: 从用户日志获取单一查询词的用户观看行为数据和所述单一查询词的用户转化 行为数据,其中,所述单一查询词的用户观看行为数据包括:查询词、被点击多媒体资源集 合、多媒体资源播放完成比集合、以及所述被点击多媒体资源集合到所述多媒体资源播放 完成比集合的映射函数,并且所述单一查询词的用户转化行为数据包括查询词,所述用户 转化行为数据还包括查询量、直达区命中率、直达区转化率、用户原创内容UGC区命中率、 UGC区转化率、以及整体转化率中的至少一个; 根据所述用户观看行为数据和/或所述用户转化行为数据确定用于识别所述虚假 搜索行为的识别数据,所述识别数据包括独立多媒体资源播放量、多媒体资源平均播放完 成比、多媒体资源点击发散度、以及多媒体资源集播放残余度中的至少一个;以及 根据所述识别数据识别所述虚假搜索行为。 结合第一方面,在第一种可能的实现方式中,在所述用户转化行为数据包括直达 区转化率并且所述识别数据包括多媒体资源点击发散度的情况下,根据所述识别数据识别 所述虚假搜索行为包括: 判断当前查询词的直达区转化率是否小于第一阈值;在当前查询词的直达区转化率小于所述第一阈值的情况下,判断当前查询词的多 媒体资源点击发散度是否小于第二阈值;以及 在当前查询词的多媒体资源点击发散度小于所述第二阈值的情况下,将当前查询 词的搜索行为识别为所述虚假搜索行为。 结合第一方面,在第二种可能的实现方式中,在所述用户转化行为数据包括直达 区转化率并且所述识别数据包括多媒体资源平均播放完成比的情况下,根据所述识别数据 识别所述虚假搜索行为包括: 判断当前查询词的直达区转化率是否小于第一阈值; 在当前查询词的直达区转化率不小于所述第一阈值的情况下,判断当前查询词的 多媒体资源平均播放完成比是否小于第三阈值;以及 在当前查询词的多媒体资源平均播放完成比小于所述第三阈值的情况下,将当前 查询词的搜索行为识别为所述虚假搜索行为。 结合第一方面和第一方面的第一或第二种可能的实施方式,在第三种可能的实施 方式中,根据所述用户观看行为数据和/或所述用户转化行为数据确定用于识别所述虚假 搜索行为的识别数据,包括:在所述识别数据包括所述独立多媒体资源播放量的情况下,根 据所述用户观看行为数据中的被点击多媒体资源集合,确定所述独立多媒体资源播放量。 结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,根据所述 用户观看行为数据和/或所述用户转化行为数据确定用于识别所述虚假搜索行为的识别数 据,包括以下步骤中的至少一项: 在所述识别数据包括所述多媒体资源平均播放完成比的情况下,根据所述用户观 看行为数据中的播放完成比集合和所述独立多媒体资源播放量并采用公式,确定所述多媒体资源平均播放完成比,其中,所述query 是当前查询词,所述APPUuery)是当前查询词的多媒体资源平均播放完成比,所述IVC (query)是当前查询词的独立多媒体资源播放量,所述m是当前查询词的第i个独立多媒体 资源的被播放次数,所述per Cl是当前查询词的第i个独立多媒体资源的播放完本文档来自技高网
...

【技术保护点】
一种搜索引擎的虚假搜索行为的识别方法,所述搜索引擎用于搜索多媒体资源,其特征在于,所述识别方法包括:从用户日志获取单一查询词的用户观看行为数据和所述单一查询词的用户转化行为数据,其中,所述单一查询词的用户观看行为数据包括:查询词、被点击多媒体资源集合、多媒体资源播放完成比集合、以及所述被点击多媒体资源集合到所述多媒体资源播放完成比集合的映射函数,并且所述单一查询词的用户转化行为数据包括查询词,所述用户转化行为数据还包括查询量、直达区命中率、直达区转化率、用户原创内容UGC区命中率、UGC区转化率、以及整体转化率中的至少一个;根据所述用户观看行为数据和/或所述用户转化行为数据确定用于识别所述虚假搜索行为的识别数据,所述识别数据包括独立多媒体资源播放量、多媒体资源平均播放完成比、多媒体资源点击发散度、以及多媒体资源集播放残余度中的至少一个;以及根据所述识别数据识别所述虚假搜索行为。

【技术特征摘要】

【专利技术属性】
技术研发人员:魏博齐志兵李力行魏强马堰夫姚键顾思斌潘柏宇王冀
申请(专利权)人:合一网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1