AB制造技术

技术编号:39399892 阅读:13 留言:0更新日期:2023-11-19 15:53
本发明专利技术提供了一种

【技术实现步骤摘要】
AB实验极值剔除方法、装置、计算机设备及计算机可读存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种
AB
实验极值剔除方法

装置

计算机设备及计算机可读存储介质


技术介绍

[0002]在货运场景下通常通过
AB
实验来评估策略的效果,
AB
实验中订单被分到两个组,对其中一个组施加策略称为实验组,另一个组不施加策略称为对照组,通过测算和比较实验组和对照组的一系列指标来评估策略的效果

同质化处理是
AB
实验数据处理很重要的环节,是为了保证在不施加策略的情况下每个组的一系列指标没有显著差异而进行的一系列数据处理手段

极端值会影响组与组之间的同质性,进而影响实验结论的科学性和准确性

目前货运场景下的
AB
实验大多数对极端流量并未做处理,或者是采用直接过滤一定阈值以上流量的简单处理方法,欠缺科学性

因此需要一种更完善的极值剔除法来解决极端值带来的同质性问题


技术实现思路

[0003]本专利技术的目的在于提供一种
AB
实验极值剔除方法

装置

计算机设备及计算机可读存储介质,旨在解决现有
AB
实验中极端值处理过于简单且欠缺科学性的问题

[0004]第一方面,本专利技术提供了一种
AB
实验极值剔除方法,包括:
[0005]S101、
准备实验数据并划分为实验组和对照组,确定待处理同质性的指标及指标的筛选阈值列表,确定所述实验数据划分的维度;
[0006]S102、
将所述实验数据按照筛选阈值和维度进行类别划分;
[0007]S103、
计算所述实验组和对照组按照各个筛选阈值剔除极端值后,剩余流量的卡方统计量,将计算结果与卡方统计量的理论值作差后取绝对值得到评估指标;
[0008]S104、
在每个维度结果下,将筛选阈值列表中所述评估指标取最小值时的筛选阈值作为对应维度结果的剔除阈值;
[0009]S105、
校验所述剔除阈值

[0010]第二方面,本专利技术提供了一种
AB
实验极值剔除装置,包括:
[0011]第一数据处理模块,用于准备实验数据并划分为实验组和对照组,确定待处理同质性的指标及指标的筛选阈值列表,确定所述实验数据划分的维度;
[0012]第二数据处理模块,用于将所述实验数据按照筛选阈值和维度进行类别划分;
[0013]计算模块,用于计算所述实验组和对照组按照各个筛选阈值剔除极端值后,剩余流量的卡方统计量,将计算结果与卡方统计量的理论值作差后取绝对值得到评估指标;
[0014]确定模块,用于在每个维度结果下,将筛选阈值列表中所述评估指标取最小值时的筛选阈值作为对应维度结果的剔除阈值;
[0015]校验模块,用于校验所述剔除阈值

[0016]第三方面,本专利技术提供了一种计算机设备,包括:
[0017]一个或多个处理器;
[0018]存储器;以及
[0019]一个或多个计算机程序,所述处理器和所述存储器通过总线连接,其中所述一个或多个计算机程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述处理器执行所述计算机程序时实现如上所述
AB
实验极值剔除方法的步骤

[0020]第四方面,本专利技术提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的
AB
实验极值剔除方法的步骤

[0021]在本专利技术中提供了一种
AB
实验极值剔除方法,是基于统计学的极值剔除方法,提高了极值剔除的科学性,保证了
AB
实验效果,其中运用卡方统计量来计算数据集同质性好坏,能快速针对不同类型的数据确定不同极值剔除阈值,可解释性强,货运场景下有较好泛用性

对剔除的数据量给予了强约束,在剔除数据量和科学性方面有较好的平衡,既不会剔除过多数据,也保证了科学性

附图说明
[0022]图1是本专利技术实施例一提供的
AB
实验极值剔除方法的流程图;
[0023]图2是本专利技术实施例二提供的
AB
实验极值剔除装置的功能模块框图;
[0024]图3是本专利技术实施例三提供的计算机设备的结构示意图

具体实施方式
[0025]为了使本专利技术的目的

技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明

应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术

[0026]为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明

[0027]实施例一:
[0028]如图1所示,本专利技术实施例一提供了一种
AB
实验极值剔除方法
100
,包括以下步骤:
[0029]S101、
准备实验数据并划分为实验组和对照组,确定待处理同质性的指标及指标的筛选阈值列表,确定实验数据划分的维度;其中,确定待处理同质性的指标及可以结合业务场景确定待处理同质性的指标,例如在货运场景下,需要处理同质性的指标是订单金额

订单里程

订单推送司机数

订到曝光司机数等,订单推送数是指该订单被推送给多少个司机,订单曝光数是指该订单被多少个司机看到

确定待处理同质性的指标的筛选阈值列表中,筛选阈值是根据待处理同质性的指标的最大值和最小值来确定的,一般是在最小值和最大值间取若干区间,可以根据具体业务常识来取,也可以是根据数据分布情况来取

假定确定的筛选阈值的个数是
k(k
为正整数
)
个,则筛选阈值列表是:
X1,X2,...,X
k
,通常
k
可以取
10。
在货运场景下常见的数据划分的维度是城市等级

车型

或大区等

[0030]以货运场景下
100000
条实验数据为例,其中每条数据都对应一笔订单,将实验数据划分为实验组数据和对照组数据,各
50000
条,选取订单金额作为处理同质性的指标,并且按照每
2000
元一个区间,确定下
10
个筛选阈值,分别为:
2000

、4000
...

【技术保护点】

【技术特征摘要】
1.
一种
AB
实验极值剔除方法,其特征在于,所述方法包括:
S101、
准备实验数据并划分为实验组和对照组,确定待处理同质性的指标及指标的筛选阈值列表,确定所述实验数据划分的维度;
S102、
将所述实验数据按照筛选阈值和维度进行类别划分;
S103、
计算所述实验组和对照组按照各个筛选阈值剔除极端值后,剩余流量的卡方统计量,将计算结果与卡方统计量的理论值作差后取绝对值得到评估指标;
S104、
在每个维度结果下,将筛选阈值列表中所述评估指标取最小值时的筛选阈值作为对应维度结果的剔除阈值;
S105、
校验所述剔除阈值
。2.
如权利要求1所述的方法,其特征在于,所述待处理同质性的指标是订单金额

订单里程

订单推送司机数

或订单曝光司机数,所述实验数据划分的维度是城市等级

车型

或大区
。3.
如权利要求1所述的方法,其特征在于,将所述实验数据按照筛选阈值和维度进行类别划分,具体是:按照
k
个筛选阈值生成
k+1
个筛选区间,
k
为正整数;针对
n
个维度结果中的每个维度结果,根据所述待处理同质性的指标落在筛选区间内的结果,将所述实验数据分为
(k+1)*n
个类别数据,
n
为正整数;每类数据具有实验组数据和对照组数据,分别统计对应的流量大小并记录
。4.
如权利要求1所述的方法,其特征在于,所述计算所述实验组和对照组按照各个筛选阈值剔除极端值后,剩余流量的卡方统计量,具体是:首先丢弃大于筛选阈值的数据;其次对剩余数据计算每个维度结果下的卡方统计量,计算公式是:其次对剩余数据计算每个维度结果下的卡方统计量,计算公式是:其中,
A
是实验组流量,
T
...

【专利技术属性】
技术研发人员:张梦园吴腾枫林肯
申请(专利权)人:深圳依时货拉拉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1