一种基于搜索引擎的数据处理方法及平台技术

技术编号:10909746 阅读:83 留言:0更新日期:2015-01-14 17:27
本发明专利技术公开了一种基于搜索引擎的数据处理方法及平台,该方法包括:通过搜索引擎的搜索结果获取在N个时间段内的N×r个初始统计信息;对N个时间段的每一个时间段内的r个设定点击位置对应的r个样本量的第一均值与第一方差以各自的样本量为权值进行加权合并,得到N个每一个时间段内的位置合并后的第二均值与第二方差;对N个位置合并后的第二均值与第二方差在时间上进行加权合并,得到N个时间段对应的整体均值与整体方差;根据整体均值与整体方差获取用于A/B测试的统计量。本发明专利技术实施例可以使互联网搜索中的指标通过A/B测试进行有效的检验,为分析人员对实验效果的评估提供科学、客观的依据。

【技术实现步骤摘要】
一种基于搜索引擎的数据处理方法及平台
本专利技术涉及互联网络
,尤其涉及一种基于搜索引擎的数据处理方法及平台。
技术介绍
搜索引擎上的搜索页上每年都有几百个商业产品和策略做小流量实验,这些产品和策略是否能全流量上线,是通过对各类指标的实验效果进行评估来决定的。目前,在生物、医疗和教育等领域比较常用的方法是A/B测试(A/Btest)。但在互联网搜索领域,因互联网需要检测的数据结构复杂、指标类型多,因此尚未构造出合适的统计量来执行A/B测试。现有技术通过判断绝对差A-B或相对差A/B是否在经验范围内,从而确定对各类指标的实验是否有效果,然而,由于通过判断绝对差A-B或相对差A/B是否在经验范围内的方式完全依赖经验,因此有失客观。
技术实现思路
本专利技术的实施例提供一种基于搜索引擎的数据处理方法及平台,为分析人员对实验效果的评估提供科学、客观的依据。为达到上述目的,本专利技术的实施例采用如下技术方案:一种基于搜索引擎的数据处理方法,包括:通过所述搜索引擎的搜索结果获取在N个时间段内的N×r个初始统计信息,其中,所述N个时间段内的每一个时间段对应r个设定点击位置的初始统计信息,所述初始本文档来自技高网...
一种基于搜索引擎的数据处理方法及平台

【技术保护点】
一种基于搜索引擎的数据处理方法,其特征在于,所述方法包括:通过所述搜索引擎的搜索结果获取在N个时间段内的N×r个初始统计信息,其中,所述N个时间段内的每一个时间段对应r个设定点击位置的初始统计信息,所述初始统计信息包括样本量、所述样本量对应的第一均值与第一方差,N,r均为正整数;对所述N个时间段的每一个时间段内的r个设定点击位置对应的r个样本量的第一均值与第一方差以各自的样本量为权值进行加权合并,得到N个每一个时间段内的位置合并后的第二均值与第二方差;对N个所述位置合并后的第二均值与第二方差在时间上进行加权合并,得到所述N个时间段对应的整体均值与整体方差;根据所述整体均值与整体方差获取用于A/...

【技术特征摘要】
1.一种基于搜索引擎的数据处理方法,其特征在于,所述方法包括:通过所述搜索引擎的搜索结果获取在N个时间段内的N×r个初始统计信息,其中,所述N个时间段内的每一个时间段对应r个设定点击位置的初始统计信息,所述初始统计信息包括样本量、所述样本量对应的第一均值与第一方差,N,r均为正整数;对所述N个时间段的每一个时间段内的r个设定点击位置对应的r个样本量的第一均值与第一方差以各自的样本量为权值进行加权合并,得到N个每一个时间段内的位置合并后的第二均值与第二方差;对N个所述位置合并后的第二均值与第二方差在时间上进行加权合并,得到所述N个时间段对应的整体均值与整体方差;根据所述整体均值与整体方差获取用于A/B测试的统计量。2.根据权利要求1所述的方法,其特征在于,对所述N个时间段的每一个时间段内的r个设定点击位置对应的r个样本量的第一均值与第一方差进行加权合并,得到N个每一个时间段内的位置合并后的第二均值与第二方差的步骤包括:对所述N个时间段的每一个时间段的数据按点击位置进行聚类,并分别统计每一个时间段下r个聚类结果的表示数据分布特征的第一均值和第一方差,其中,所述每一个时间段下的聚类结果有r个聚类集合;统计所述r个聚类集合之间的相关系数矩阵;根据所述相关系数矩阵对每一时间段下所述r个聚类集合的所述第一均值与所述第一方差进行加权合并,得到所述r个聚类集合合并后的表示分布特征的第二均值与第二方差。3.根据权利要求2所述的方法,其特征在于,所述统计所述r个聚类集合之间的相关系数矩阵的步骤包括:获取所述每一个时间段内对应的搜索结果;如果所述r个聚类集合之间的数据存在相关性,根据所述每一个时间段内对应的搜索结果获取所述r个聚类集合之间的每一个时间段内的相关系数矩阵。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:确定所述每一个时间段内对应的搜索结果是在同一次搜索下进行;确定所述同一次搜索下的在所述r个设定点击位置之间的点击存在相关性。5.根据权利要求3或4所述的方法,其特征在于,所述根据所述每一个时间段内对应的搜索结果获取所述r个聚类集合之间的每一个时间段内的相关系数矩阵的步骤包括:在每一时间段内统计任意两个不同设定位置在一次搜索下同时有展现和同时有点击的次数,对r个设定点击位置,共有r×(r-1)/2种位置组合;根据对r×(r-1)/2种位置组合的展现次数和点击次数的统计结果,获取所述r个聚类集合之间的相关系数矩阵。6.根据权利要求5所述的方法,其特征在于,所述根据所述相关系数矩阵对每一时间段下所述r个聚类集合的所述第一均值与所述第一方差进行加权合并,得到所述r个聚类集合合并后的表示分布特征的第二均值与第二方差的步骤包括:对所述每一个时间段,根据所述r个聚类集合的第一均值、第一方差和所述相关系数矩阵,同时按所述r个聚类集合的样本量加权;获取加权后的所述每一个时间段下按点击位置合并...

【专利技术属性】
技术研发人员:郑鹏韩聪
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1