【技术实现步骤摘要】
AB实验极值剔除方法、装置、计算机设备及计算机可读存储介质
[0001]本专利技术涉及数据处理
,尤其涉及一种
AB
实验极值剔除方法
、
装置
、
计算机设备及计算机可读存储介质
。
技术介绍
[0002]在货运场景下通常通过
AB
实验来评估策略的效果,
AB
实验中订单被分到两个组,对其中一个组施加策略称为实验组,另一个组不施加策略称为对照组,通过测算和比较实验组和对照组的一系列指标来评估策略的效果
。
同质化处理是
AB
实验数据处理很重要的环节,是为了保证在不施加策略的情况下每个组的一系列指标没有显著差异而进行的一系列数据处理手段
。
极端值会影响组与组之间的同质性,进而影响实验结论的科学性和准确性
。
目前货运场景下的
AB
实验大多数对极端流量并未做处理,或者是采用直接过滤一定阈值以上流量的简单处理方法,欠缺科学性
。
因此需要一种更完善的极值剔除法来解决极端值带来的同质性问题
。
技术实现思路
[0003]本专利技术的目的在于提供一种
AB
实验极值剔除方法
、
装置
、
计算机设备及计算机可读存储介质,旨在解决现有
AB
实验中极端值处理过于简单且欠缺科学性的问题
。
[0004]第一方面,本专利技术提供了一种
【技术保护点】
【技术特征摘要】
1.
一种
AB
实验极值剔除方法,其特征在于,所述方法包括:
S101、
准备实验数据并划分为实验组和对照组,确定待处理同质性的指标及指标的筛选阈值列表,确定所述实验数据划分的维度;
S102、
将所述实验数据按照筛选阈值和维度进行类别划分;
S103、
计算所述实验组和对照组按照各个筛选阈值剔除极端值后,剩余流量的卡方统计量,将计算结果与卡方统计量的理论值作差后取绝对值得到评估指标;
S104、
在每个维度结果下,将筛选阈值列表中所述评估指标取最小值时的筛选阈值作为对应维度结果的剔除阈值;
S105、
校验所述剔除阈值
。2.
如权利要求1所述的方法,其特征在于,所述待处理同质性的指标是订单金额
、
订单里程
、
订单推送司机数
、
或订单曝光司机数,所述实验数据划分的维度是城市等级
、
车型
、
或大区
。3.
如权利要求1所述的方法,其特征在于,将所述实验数据按照筛选阈值和维度进行类别划分,具体是:按照
k
个筛选阈值生成
k+1
个筛选区间,
k
为正整数;针对
n
个维度结果中的每个维度结果,根据所述待处理同质性的指标落在筛选区间内的结果,将所述实验数据分为
(k+1)*n
个类别数据,
n
为正整数;每类数据具有实验组数据和对照组数据,分别统计对应的流量大小并记录
。4.
如权利要求1所述的方法,其特征在于,所述计算所述实验组和对照组按照各个筛选阈值剔除极端值后,剩余流量的卡方统计量,具体是:首先丢弃大于筛选阈值的数据;其次对剩余数据计算每个维度结果下的卡方统计量,计算公式是:其次对剩余数据计算每个维度结果下的卡方统计量,计算公式是:其中,
A
是实验组流量,
T
...
【专利技术属性】
技术研发人员:张梦园,吴腾枫,林肯,
申请(专利权)人:深圳依时货拉拉科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。