【技术实现步骤摘要】
分布式学习的数据处理方法、装置、电子设备
本申请涉及数据处理技术,尤其涉及一种分布式学习的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
技术介绍
随着大数据、分布式等技术的不断发展,许多领域中需要对特征数据进行特征分箱处理。特征分箱是一种对多个数据进行分组的技术,每个分组可以称之为一个分箱。在机器学习领域中,通过对连续型的特征进行分箱处理,可以将特征离散化,基于特征分箱的分箱结果,考察特征与标签之间的相关程度。例如,基于分箱结果求取信息特征值、证据权重等,以用于对特征数据预处理和特征选择。相关技术中特征数据通常是存储在多方分布式数据,需要联合多方的特征数据进行特征分箱处理,然而相关技术在进行多方配合进行联合特征分箱时,各方会暴露自身存储的特征数据,引发了数据泄露的危险。
技术实现思路
本申请实施例提供一种分布式学习的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够保护样本特征数据的安全,并快速的得到目标分位点。本申请实施例的技术方案是这样实现的: ...
【技术保护点】
1.一种分布式学习的数据处理方法,其特征在于,应用于第一设备,所述方法包括:/n基于多个第二设备各自存储的样本特征数据的样本特征极值和样本数量,确定多个模拟分位点以及对应的多个区间;/n基于每个所述第二设备中与所述每个区间对应的子样本数量,确定每个区间内的总体样本数量;/n基于所述每个区间内的总体样本数量以及所述每个区间对应的模拟分位点,构建所述每个区间内的模拟数据;/n基于所述每个区间内的模拟数据形成总模拟数据,并基于所述总模拟数据确定目标分位点;/n将所述目标分位点发送给各所述第二设备,以使/n各所述第二设备基于所述目标分位点构建样本集,并基于所述样本集训练用于进行分类 ...
【技术特征摘要】
1.一种分布式学习的数据处理方法,其特征在于,应用于第一设备,所述方法包括:
基于多个第二设备各自存储的样本特征数据的样本特征极值和样本数量,确定多个模拟分位点以及对应的多个区间;
基于每个所述第二设备中与所述每个区间对应的子样本数量,确定每个区间内的总体样本数量;
基于所述每个区间内的总体样本数量以及所述每个区间对应的模拟分位点,构建所述每个区间内的模拟数据;
基于所述每个区间内的模拟数据形成总模拟数据,并基于所述总模拟数据确定目标分位点;
将所述目标分位点发送给各所述第二设备,以使
各所述第二设备基于所述目标分位点构建样本集,并基于所述样本集训练用于进行分类任务的机器学习模型。
2.根据权利要求1所述的方法,其特征在于,所述基于多个第二设备各自存储的样本特征数据的样本特征极值和样本数量,确定多个模拟分位点以及对应的多个区间,包括:
基于多个第二设备各自存储的样本特征数据的样本特征极值和样本数量,确定全局样本特征数据的全局样本特征极值和全局样本数量;其中,所述全局样本特征数据包括所述多个第二设备各自存储的样本特征数据,所述全局样本特征极值包括全局样本特征数据的最大值、最小值;
基于所述全局样本特征极值确定所述全局样本特征数据的总体特征区间;
基于预设分箱数目和所述全局样本特征极值确定距离间隔;
基于所述距离间隔对所述总体特征区间进行等距离划分处理,以确定多个模拟分位点以及对应的多个区间;其中,所述距离间隔为多个模拟分位点中的相邻的模拟分位点之间的差值。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述每个区间内的总体样本数量以及所述每个区间对应的模拟分位点,构建所述每个区间内的模拟数据,包括:
基于所述每个区间对应的模拟分位点确定相应区间的特征数据范围;
基于所述每个区间内的总体样本数量与相应区间的特征数据范围,确定模拟数据分布比例;其中,所述模拟数据分布比例为所述特征数据范围对应的模拟分位点的差值与所述总体样本数量的比值;
基于所述模拟数据分布比例在所述每个区间内,构建均匀分布的模拟数据,其中,相邻的所述模拟数据的差值为所述模拟数据分布比例。
4.根据权利要求1所述的方法,其特征在于,所述基于所述每个区间内的模拟数据形成总模拟数据,并基于所述总模拟数据确定目标分位点,包括:
基于所述模拟分位点将多个区间内的模拟数据进行拼接拟合,以形成总模拟数据;其中,所述总模拟数据是具备特定顺序的数据;
确定分箱比例,基于所述分箱比例对所述总模拟数据进行划分,得到多个不同分箱;其中,所述分箱中包括至少一个子模拟数据,所述不同分箱中的所述子模拟数据的数量一致;
将所述多个不同分箱相应的分位点确定为目标分位点。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
创建多个求取目标分位点任务;
其中,所述多个求取目标分位点任务用于求取不同维度的全局样本特征数据的目标分位点;其中,每一维度的全局样本特征数据表征同一特征的数据,所述全局样本特征数据包括所述多个第二设备各自存储的所述样本特征数据;
并行执行多个求取目标分位点任务,以得到所述不同维度的全局样本特征数据的目标分位点。
6.根据权利要求1所述的方法,其特征在于,所述将所述目标分位点发送给各所述第二设备,以使各所述第二设备基于所述目标分位点构建样本集,并基于所述样本集训练用于进行分类任务的机器学习模型,包括:
将所述目标分位点发送给各所述第二设备,以使各所述第二设备基于所述目标分位点确定...
【专利技术属性】
技术研发人员:谭明超,马国强,范涛,陈天健,杨强,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。