【技术实现步骤摘要】
数据处理方法及相关装置
[0001]本申请涉及人工智能
,尤其涉及一种数据处理方法及相关装置。
技术介绍
[0002]工作中经常需要利用实验组和对照组,针对该两组样本数据分别使用新策略和旧策略,以验证新策略是否有效。实验组和对照组包括的样本是从总体样本中抽样选择获得的,如果实验组和对照组的样本数据的特征分布区别较大,容易对实验结果造成负面影响。例如,在车险续保策略的应用场景中,若实验组和对照组的某些指标(如投保年限、购车时长等)分布不一致,会天然造成续保率偏高,无法证明策略的投放效果的有效性。
[0003]目前,一般先采用简单随机抽样、分层抽样等抽样方法,对总体样本进行数据抽样,然后将抽样获得的样本简单划分为两组,获得实验组样本和对照组样本。但是,采用以上方法无法保证实验组和对照组的样本数据分布一致。因此,如何进行数据处理可以使获得的实验组和对照组的样本数据分布一致,亟待解决。
技术实现思路
[0004]本申请实施例提供一种数据处理方法及相关装置,通过对属性数据分布特征不满足均衡条件的两个样本组 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取第一样本组和第二样本组,所述第一样本组和所述第二样本组均包括多个样本,所述多个样本中的每个样本均包括多种属性数据;确定所述第一样本组的属性数据分布特征与所述第二样本组的属性数据分布特征是否满足均衡条件,在不满足所述均衡条件的情况下,确定所述第一样本组中每种属性数据的难易度评分和所述第二样本组中每种属性数据的难易度评分,所述难易度评分与属性数据的离散程度相关;基于所述第一样本组中每种属性数据的难易度评分,确定所述第一样本组中每个样本的移动影响性评分,并基于所述第二样本组中每种属性数据的难易度评分,确定所述第二样本组中每个样本的移动影响性评分,所述移动影响性评分用于表示移动所述样本对所述样本所属样本组的属性数据分布特征的总影响程度;分别将所述第一样本组与所述第二样本组中移动影响性评分最低的K个样本进行交换,获得更新后的第一样本组和更新后的第二样本组,所述K为正整数;并确定更新后的第一样本组的属性数据分布特征和所述更新后的第二样本组的属性数据分布特征是否满足所述均衡条件,直到更新后的第一样本组的属性数据分布特征与更新后的第二样本组的属性数据分布特征满足所述均衡条件,输出满足所述均衡条件的所述更新后的第一样本组和所述更新后的第二样本组。2.如权利要求1所述的方法,其特征在于,所述确定所述第一样本组的属性数据分布特征与所述第二样本组的属性数据分布特征是否满足均衡条件,包括:确定所述第一样本组中每种属性数据的分布特征和所述第二样本组中每种属性数据的分布特征;若所述第一样本组和第二样本组中表示同一种属性的属性数据的分布特征满足差异条件,将所述属性数据表示的属性确定为目标属性,获取所述目标属性的个数,并计算所述目标属性的个数与所述第一样本组包括的所述多种属性数据的种数的比值;在所述比值小于预设阈值的情况下,确定所述第一样本组的属性数据分布特征与所述第二样本组的属性数据分布特征满足所述均衡条件;在所述比值大于所述预设阈值的情况下,确定所述第一样本组的属性数据分布特征与所述第二样本组的属性数据分布特征不满足所述均衡条件。3.如权利要求2所述的方法,其特征在于,所述确定所述第一样本组中每种属性数据的难易度评分,包括:针对所述第一样本组中的每种属性数据,确定所述每种属性数据的多个数据特征,并将所述每种属性数据的多个数据特征组合为向量,获得多个向量,其中,所述第一样本组中的一种属性数据对应一个向量;对所述多个向量进行聚类,获得一个或多个聚类簇;确定所述一个或多个聚类簇中每个聚类簇的平均离散程度,并基于所述每个聚类簇的平均离散程度,确定所述第一样本组中每种性数据的难易度评分,所述难易度评分与属性数据对应的向量所属的聚类簇的平均离散程度呈正相关。4.如权利要求3所述的方法,其特征在于,所述多个数据特征包括以下特征中的多项:属性数据取值分布的方差、属性数据取值的不重复个数、属性数据的饱和度、属性数据取值
分布的极差、属性数据取值分布的标准差和属性数据取值...
【专利技术属性】
技术研发人员:沈嘉良,王遥,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。