样本比例不匹配的归因方法、装置、存储介质及程序产品制造方法及图纸

技术编号:39239898 阅读:8 留言:0更新日期:2023-10-30 11:52
本申请公开了一种样本比例不匹配的归因方法、装置、存储介质及程序产品,属于数据分析技术领域。包括:在线获取AB测试的实验组中的实验样本对象数量,和对照组中的对照样本对象数量;将所述实验样本对象数量和所述对照样本对象数量输入至所述AB测试平台中的样本分布检验模型中进行检验,得到样本对象统计量;将所述样本对象统计量与检验阈值进行对比,确定所述AB测试中的样本对象数量的分布比例的匹配情况;在所述AB测试中的所述样本对象数量的分布比例不匹配的情况下,对所述AB测试进行检测,输出所述样本对象数量的分布比例不匹配的原因。通过上述方法,可以快速检测到导致样本对象数量的分布比例不匹配的原因,提高了检测效率。效率。效率。

【技术实现步骤摘要】
样本比例不匹配的归因方法、装置、存储介质及程序产品


[0001]本申请实施例涉及数据分析
,特别涉及一种样本比例不匹配的归因方法、装置、存储介质及程序产品。

技术介绍

[0002]样本比例不匹配(Sample Ratio Mismatch,SRM)是指不同数据集中的样本对象数量极不均衡。例如,在AB测试中,不均衡的样本对象比例会使得用户对数据集的分析结果更加偏向于样本对象数量较多的那一侧,从而导致数据分析结果产生大的偏差。
[0003]在相关技术中,用户获取A、B两个数据集中的样本对象数量,通过人工检验A、B两个数据集中实际分布的样本对象数量比例与AB测试前在A、B两个数据集中配置的样本对象数量比例是否匹配,从而确定两个数据集中的样本对象数量是否均衡。在AB测试中的样本对象数量的分布比例不匹配的情况下,通过人工分析产生此次不匹配的原因。
[0004]但是,在数据集较大的情况下,通过人工检测SRM产生的原因,该过程较为复杂,需要排查的链路很长,涉及的环节较多,导致无法准确确定SRM产生的具体原因,进而导致AB测试的评估结果准确性低。

技术实现思路

[0005]本申请提供了一种样本比例不匹配的归因方法、装置、存储介质及程序产品,能够快速、准确地确定样本对象数量的分布比例不匹配的原因。所述技术方案如下:
[0006]根据本申请的一方面,提供了一种样本比例不匹配的归因方法,所述方法包括:
[0007]在线获取AB测试的实验组中的实验样本对象数量,和对照组中的对照样本对象数量;
[0008]将所述实验样本对象数量和所述对照样本对象数量输入至所述AB测试平台中的样本分布检验模型中进行检验,得到样本对象统计量;
[0009]将所述样本对象统计量与检验阈值进行对比,确定所述AB测试中的样本对象数量的分布比例的匹配情况;所述样本对象数量的分布比例是指所述实验样本对象数量和所述对照样本对象数量的比例,所述匹配情况是指所述AB测试中所述样本对象数量在所述实验组、所述对照组中的实际分布比例,与所述AB测试前所述样本对象数量在所述实验组、所述对照组中的配置分布比例之间的匹配情况;
[0010]在所述AB测试中的所述样本对象数量的分布比例不匹配的情况下,对所述AB测试进行检测,输出所述样本对象数量的分布比例不匹配的原因。
[0011]在一种可能的实现方式中,所述分流因素包括如下中的至少一种:
[0012]分流配置能力,所述分流配置能力用以表示哈希算法向所述实验组和所述对照组配置样本对象的能力;
[0013]历史实验数据,所述历史实验数据是指所述实验组和所述对照组中的样本对象参与过的历史AB测试;
[0014]曝光表数据,所述曝光表用以表示所述实验组和所述对照组中的样本对象与所述AB测试的映射关系;
[0015]上报数据,所述上报数据是指所述AB测试平台中的样本对象数据被调用时,所述AB测试平台被动上报的数据。
[0016]在一种可能的实现方式中,所述数据参数包括样本对象个数;
[0017]所述数据质量检测网络对所述样本对象数据的数据参数进行检测,输出所述样本对象数量的分布比例不匹配的原因为上报的所述样本对象数据发生错误,包括:
[0018]获取离线状态下的所述实验样本对象数据和所述对照样本对象数据,得到离线样本对象数据;
[0019]所述数据质量检测网络对在线样本对象数据中的样本对象个数与所述离线样本对象数据中的样本对象个数进行对比,输出所述样本对象数量的分布比例不匹配的原因为漏报样本对象;
[0020]其中,所述在线样本对象数量包括所述AB测试平台在线获取上报的所述AB测试中的所述实验样本对象数据和所述对照样本对象数据。
[0021]在一种可能的实现方式中,所述数据参数包括样本对象的内容参数;
[0022]所述数据质量检测网络对所述样本对象数据的数据参数进行检测,输出所述样本对象数量的分布比例不匹配的原因为上报的所述样本对象数据发生错误,包括:
[0023]获取离线状态下的实验样本对象数据和对照样本对象数据,得到离线样本对象数据;
[0024]所述数据质量检测网络将在线样本对象数据中的样本对象的内容参数与所述离线样本对象数据中的样本对象的内容参数进行对比,输出所述样本对象数量的分布比例不匹配的原因为错报样本对象的内容参数;
[0025]其中,所述在线样本对象数据包括所述AB测试平台在线获取上报的所述AB测试的所述实验样本对象的内容参数和所述对照样本对象的内容参数。
[0026]在一种可能的实现方式中,所述样本分布检验模型包括卡方检验网络;
[0027]预设所述AB测试中的所述样本对象数量的分布比例匹配;
[0028]基于所述样本对象数量的分布比例匹配的预设,将所述实验样本对象数量和所述对照样本对象数量输入至所述卡方检验网络进行检验,得到匹配情况下的所述实验样本对象数量和所述对照样本对象数量的样本对象统计量。
[0029]在一种可能的实现方式中,在所述样本对象统计量的绝对值大于所述检验阈值的绝对值的情况下,确定所述AB测试中的所述样本对象数量的分布比例匹配的预设不成立。
[0030]在一种可能的实现方式中,在所述样本对象统计量的绝对值小于等于所述检验阈值的绝对值的情况下,确定所述AB测试中的所述样本对象数量的分布比例匹配的预设成立。
[0031]根据本申请的一方面,提供了一种样本比例不匹配的归因装置,所述装置包括:
[0032]获取模块,用于在线获取AB测试的实验组中的实验样本对象数量,和对照组中的对照样本对象数量;
[0033]检验模块,用于将所述实验样本对象数量和所述对照样本对象数量输入至所述AB测试平台中的样本分布检验模型中进行检验,得到样本对象统计量;
[0034]所述检验模块,用于将所述样本对象统计量与检验阈值进行对比,确定所述AB测试中的样本对象数量的分布比例的匹配情况;所述样本对象数量的分布比例是指所述实验样本对象数量和所述对照样本对象数量的比例,所述匹配情况是指所述AB测试中所述样本对象数量在实验组、对照组中的实际分布比例,与所述AB测试前所述样本对象数量在所述实验组、所述对照组中的配置分布比例之间的匹配情况;
[0035]所述检验模块,用于在所述AB测试中的所述样本对象数量的分布比例不匹配的情况下,对所述AB测试进行检测,输出所述样本对象数量的分布比例不匹配的原因。
[0036]根据本申请的另一方面,提供了一种计算机设备,该计算机设备包括:处理器和存储器,存储器中存储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行以实现如上方面所述的样本比例不匹配的归因方法。
[0037]根据本申请的另一方面,提供了一种计算机存储介质,计算机可读存储介质中存储有至少一条计算机程序,至少一条计算机程序由处理器加载并执行以实现如上方面所述的样本比例不匹配的归因方法。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本比例不匹配的归因方法,其特征在于,所述方法由AB测试平台执行,所述方法包括:在线获取AB测试的实验组中的实验样本对象数量,和对照组中的对照样本对象数量;将所述实验样本对象数量和所述对照样本对象数量输入至所述AB测试平台中的样本分布检验模型中进行检验,得到样本对象统计量;将所述样本对象统计量与检验阈值进行对比,确定所述AB测试中的样本对象数量的分布比例的匹配情况;所述样本对象数量的分布比例是指所述实验样本对象数量和所述对照样本对象数量的比例,所述匹配情况是指所述AB测试中所述样本对象数量在所述实验组、所述对照组中的实际分布比例,与所述AB测试前所述样本对象数量在所述实验组、所述对照组中的配置分布比例之间的匹配情况;在所述AB测试中的所述样本对象数量的分布比例不匹配的情况下,对所述AB测试进行检测,输出所述样本对象数量的分布比例不匹配的原因。2.根据权利要求1所述的方法,其特征在于,所述样本对象数量的分布比例不匹配的原因包括如下中的至少一种:所述样本对象分流不均匀;上报的样本对象数据发生错误;所述AB测试的交互操作发生错误。3.根据权利要求2所述的方法,其特征在于,所述AB测试平台包括分流检测网络;所述在所述AB测试中的所述样本对象数量的分布比例不匹配的情况下,对所述AB测试进行检测,输出所述样本对象数量的分布比例不匹配的原因,包括:在所述AB测试中的所述样本对象数量的分布比例不匹配的情况下,所述分流检测网络对所述AB测试中的分流因素进行检测,输出样本对象数量的分布比例不匹配的原因为:所述样本对象分流不均匀。4.根据权利要求2所述的方法,其特征在于,所述AB测试平台包括数据质量检测网络;所述在所述AB测试中的所述样本对象数量的分布比例不匹配的情况下,对所述AB测试进行检测,输出所述样本对象数量的分布比例不匹配的原因,包括:在所述AB测试中的所述样本对象数量的分布比例不匹配的情况下,所述数据质量检测网络对所述样本对象数据的数据参数进行检测,输出所述样本对象数量的分布比例不匹配的原因为:所述上报的所述样本对象数据发生错误。5.根据权利要求2所述的方法,其特征在于,所述AB测试平台包括交互操作检测网络;所述在所述AB测试中的所述样本对象数量的分布比例不匹配的情况下,对所述AB测试进行检测,输出所述样本对象数量的分布比例不匹配的原因,包括:在所述A...

【专利技术属性】
技术研发人员:王柏林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1