一种聚类采样方法、设备、介质及程序产品技术

技术编号:36881648 阅读:26 留言:0更新日期:2023-03-15 21:12
本申请的目的是提供一种聚类采样方法、设备、介质及程序产品,包括:获取基于原始数据特征分类得到的第一数据组及第二数据组,其中,所述第一数据组包括满足原始数据特征的特征条件的数据,所述第二数据组包括未满足原始数据特征的特征条件的数据;获取至少一个目标数据特征在所述第一数据组中的第一目标特征分布信息,及所述至少一个目标数据特征在所述第二数据组中的第二目标特征分布信息;根据所述第一数据组及所述第二数据组之一,以及所述第一目标特征分布信息、所述第二目标特征信息及确定对应的第三数据组。本申请适用于非AB试验下的因果关系的推断,计算简便,节省了计算资源的同时,提高了计算效率。提高了计算效率。提高了计算效率。

【技术实现步骤摘要】
一种聚类采样方法、设备、介质及程序产品


[0001]本申请涉及通信领域,尤其涉及一种聚类采样技术。

技术介绍

[0002]AB测试是评估因果效果效应的黄金准则,但在某些场景下无法开展AB测试或者成本过高。例如,针对服务推广效果评估场景,统计发现,参与过服务的用户比未参与的用户后续打开频次和收入更高,但参与服务的用户本身质量更高,推广前各项指标表现就更好,因此,存在非AB测试下如何进行因果推断的问题。还例如,新产品用户长期生命周期价值预估:由于创新产品上线周期较短无法直接统计用户长期价值,因此有时候会现有历史数据拟合函数,然后预测新产品用户生命周期价值,但现有产品的特征属性与新产品可能有较大的不同,因此会出现比较大的偏差。

技术实现思路

[0003]本申请的一个目的是提供一种聚类采样方法、设备、介质及程序产品。
[0004]根据本申请的一个方面,提供了一种聚类采样方法,其中,该方法包括:
[0005]获取基于原始数据特征分类得到的第一数据组及第二数据组,其中,所述第一数据组包括满足原始数据特征的特征条件的数据,所述第二数据组包括未满足原始数据特征的特征条件的数据;
[0006]获取至少一个目标数据特征在所述第一数据组中的第一目标特征分布信息,及所述至少一个目标数据特征在所述第二数据组中的第二目标特征分布信息,其中,所述至少一个目标数据特征不包含所述原始数据特征;
[0007]根据所述第一数据组及所述第二数据组之一,以及所述第一目标特征分布信息、所述第二目标特征信息及确定对应的第三数据组,其中,所述第三数据组包括关于原始数据特征的反事实假设条件对应的数据。
[0008]根据本申请的另一个方面,提供了一种聚类采样设备,其中,该设备包括:
[0009]一一模块,用于获取基于原始数据特征分类得到的第一数据组及第二数据组,其中,所述第一数据组包括满足原始数据特征的特征条件的数据,所述第二数据组包括未满足原始数据特征的特征条件的数据;
[0010]一二模块,用于获取至少一个目标数据特征在所述第一数据组中的第一目标特征分布信息,及所述至少一个目标数据特征在所述第二数据组中的第二目标特征分布信息,其中,所述至少一个目标数据特征不包含所述原始数据特征;
[0011]一三模块,用于根据所述第一数据组及所述第二数据组之一,以及所述第一目标特征分布信息、所述第二目标特征信息及确定对应的第三数据组,其中,所述第三数据组包括关于原始数据特征的反事实假设条件对应的数据。
[0012]根据本申请的一个方面,提供了一种计算机设备,其中,该设备包括:
[0013]处理器;以及
[0014]被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上任一所述方法的步骤。
[0015]根据本申请的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令在被执行时使得系统进行执行如上任一所述方法的步骤。
[0016]根据本申请的一个方面,提供了一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现如上任一所述方法的步骤。
[0017]与现有技术相比,本申请基于第一数据组和第二数据组中各项数据特征的差异,通过确定第一数据组和第二数据组通过目标数据特对应特征分布,并基于特征分布重新采样确定对应第三数据组,从而获取关于原始数据特征的反事实假设条件对应的数据样本。本申请适用于非AB试验下的因果关系的推断,计算简便,节省了计算资源的同时,提高了计算效率。
附图说明
[0018]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0019]图1示出根据本申请一个实施例的一种聚类采样的方法流程图;
[0020]图2示出根据本申请另一个实施例的一种计算机设备的设备结构图;
[0021]图3示出可被用于实施本申请中所述的各个实施例的示例性系统。
[0022]附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
[0023]下面结合附图对本申请作进一步详细描述。
[0024]在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(例如,中央处理器(Central Processing Unit,CPU))、输入/输出接口、网络接口和内存。
[0025]内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(Random Access Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read Only Memory,ROM)或闪存(Flash Memory)。内存是计算机可读介质的示例。
[0026]计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(Phase

Change Memory,PCM)、可编程随机存取存储器(Programmable Random Access Memory,PRAM)、静态随机存取存储器(Static Random

Access Memory,SRAM)、动态随机存取存储器(Dynamic Random Access Memory,DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically

Erasable Programmable Read

Only Memory,EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read

Only Memory,CD

ROM)、数字多功能光盘(Digital Versatile Disc,DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0027]本申请所指设备包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的移动电子产品,例如智能手机、平板电脑等,所述移动电子产品可以采用任意操作系统,如Android操作系统、iOS操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑器件(Programmable Logic Device,PLD)、现场可编程门阵列(Field Programma本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种聚类采样方法,其中,该方法包括:获取基于原始数据特征分类得到的第一数据组及第二数据组,其中,所述第一数据组包括满足原始数据特征的特征条件的数据,所述第二数据组包括未满足原始数据特征的特征条件的数据;获取至少一个目标数据特征在所述第一数据组中的第一目标特征分布信息,及所述至少一个目标数据特征在所述第二数据组中的第二目标特征分布信息,其中,所述至少一个目标数据特征不包含所述原始数据特征;根据所述第一数据组及所述第二数据组之一,以及所述第一目标特征分布信息、所述第二目标特征信息及确定对应的第三数据组,其中,所述第三数据组包括关于原始数据特征的反事实假设条件对应的数据。2.根据权利要求1所述的方法,其中,所述至少一个目标数据特征包括一个目标数据特征;其中,所述获取至少一个目标数据特征在所述第一数据组中的第一目标特征分布信息,及所述至少一个目标数据特征在所述第二数据组中的第二目标特征分布信息,包括:根据所述目标数据特征确定所述第一数据组中满足所述目标数据特征的第一目标数据数量,根据所述第一目标数据数量及所述第一数据组的总数据数量确定所述第一数据组中的第一目标特征分布信息;根据所述目标数据特征确定所述第二数据组中满足所述目标数据特征的第二目标数据数量,根据所述第二目标数据数量及所述第一数据组的总数据数量确定所述第一数据组中的第二目标特征分布信息。3.根据权利要求2所述的方法,其中,所述至少一个目标数据特征包括多个目标数据特征;其中,所述获取至少一个目标数据特征在所述第一数据组中的第一目标特征分布信息,及所述至少一个目标数据特征在所述第二数据组中的第二目标特征分布信息,包括:根据所述多个目标数据特征确定每个目标数据特征在所述第一数据组中的第一单元目标特征分布信息,以获取所述多个目标数据特征信息的多个第一单元目标特征分布信息,并根据所述多个第一单元目标特征分布信息确定所述第一数据组中的第一目标特征分布信息;根据所述多个目标数据特征确定每个目标数据特征在所述第二数据组中的第二单元目标特征分布信息,以获取所述多个目标数据特征信息的多个第二单元目标特征分布信息,并根据所述多个第二单元目标特征分布信息确定所述第二数据组中的第二目标特征分布信息。4.根据权利要求3所述的方法,其中,所述根据所述多个目标数据特征确定每个目标数据特征在所述第一数据组中的第一单元目标特征分布信息,包括:从所述多个目标数据特征中依次取一个待确定目标数据特征,根据所述待确认目标数据特征确定所述第一数据组中满足所述待确定目标数据特征的第一目标数据数量,根据所述第一目标数据数量及所述第一数据组的总数据数量确定所述第一数据组中的第一单元目标特征分布信息;其中,所述根据所述多个目标数据特征确定每个目标数据特征在所述第二数据组中的第二单元目标特征分布信息,包括:从所述多个目标数据特征中依次取一个待确定目标数据特征,根据所述待确认目标数
据特征确定所述第二数据组中满足所述待确定目标数据特征的第二目标数据数量,根据所述第二目标数据数量及所述第二数据组的总数据数量确定所述第二数据组中的第二单元目标特征分布信息。5.根据权利要求3或4所述的方法,其中,所述根据所述多个第一单元目标特征分布信息确定所述第一数据组中的第一目标特征分布信息,包括:将所述多个目标数据...

【专利技术属性】
技术研发人员:刘明
申请(专利权)人:上海连尚网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1