【技术实现步骤摘要】
数据处理方法、装置、设备及存储介质
[0001]本申请涉及人工智能
,尤其涉及一种数据处理方法、装置、设备及存储介质。
技术介绍
[0002]随着计算机技术的发展和大数据应用的普及,通过机器学习从大数据中可挖掘出有用的信息,因此,机器学习算法在各
得到了广泛的应用。机器学习可以融合大量数据的特征,通过训练数据在经验中学习,训练出相应的模型。在实际应用中,数据常常包含用户的隐私信息,根据一些数据监管法律法规,不能直接收集用户的数据,所以在联邦学习的架构下,通过对数据加密,采用加密后的数据采用机器学习方式训练得到相应的模型。
[0003]在联邦学习中,一般需要来自多方的数据共同参与,以提高模型训练的精确度。如何确定各方的数据参与联邦学习是亟需解决的问题。
技术实现思路
[0004]本申请的主要目的在于提供一种数据处理方法、装置、设备及存储介质,旨在各客户终端相互协同获取用于纵向联邦学习目标样本数据。
[0005]为实现上述目的,第一方面,本申请提供一种数据处理方法,所述数据处理方法包括 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:第一客户终端获取数据处理指令,所述数据处理指令用于指示所述第一客户终端抽取参与纵向联邦学习的样本数据;所述第一客户终端从本地的样本数据集中获取多份目标样本数据,所述目标样本数据用于纵向联邦学习;所述第一客户终端将所述多份目标样本数据的样本标识分别进行加密,获得多个参考加密样本标识;所述第一客户终端将所述多个参考加密样本标识发送给参与纵向联邦学习的第二客户终端。2.根据权利要求1所述的方法,其特征在于,所述第一客户终端从本地的第一样本数据集中获取多份目标样本数据,包括:所述第一客户终端根据样本数据抽取规则,从本地的样本数据集中获取多份目标样本数据。3.根据权利要求2所述的方法,其特征在于,所述数据处理指令中包括所述样本数据抽取规则;所述第一客户终端从本地的样本数据集中获取多份目标样本数据之前,还包括:所述第一客户终端根据所述数据处理指令,确定所述样本数据抽取规则。4.根据权利要求2或3所述的方法,其特征在于,所述样本数据抽取规则用于指示针对目标特征的多个不同取值范围分别抽取目标样本数据,所述第一客户终端根据样本数据抽取规则,从本地的样本数据集中获取多份目标样本数据,包括:所述第一客户终端针对每个取值范围,根据所述本地的样本数据集中各样本数据中目标特征的取值,从所述样本数据集中确定目标特征的取值属于所述取值范围的样本数据子集,并从所述样本数据子集中获取至少一份中间样本数据;所述第一客户终端将针对各取值范围分别获取的至少一份中间样本数据确定为所述多份目标样本数据。5.根据权利要求3所述的方法,其特征在于,所述样本数据抽取规则还包括每个取值范围对应的抽样比例,所述第一客户终端从所述样本数据子集中获取至少一份中间样本数据,包括:所述第一客户终端根据所述取值范围抽样比例,从所述样本数据子集中获取至少一份中间样本数据;其中,所述中间样本数据的份数与所述样本数据子集中样本数据的总份数之比等于所述抽样比例。6.根据权利要求3所述的方法,其特征在于,所述样本数据抽取规则还包括每个取值范围对应的抽样份数,所述第一客户终端从所述样本数据子集中获取至少一份中间样本数据,包括:所述第一客户终端根据所述取值范围的抽样份数,从所述样本数据子集中获取所述至少一份中间样本数据;其中,所述中间样本数据的份数等于所述抽样份数。7.根据权利要求2或3所述的方法,其特征在于,所述样本数据抽取规则包括抽样比例,
所述样本数据抽取规则用于指示从本地的样本数据集中抽取所述抽样比例的样本数据;所述第一客户终端根据样本数据抽取规则,从本地的样本数据集中获取多份目标样本数据,包括:所述第一客户终端根据抽样比例,从所述本地的样本数据集中抽取所述多份目标样本数据,其中,所述目标样本数据的份数与所述样本数据集中样本数据的总份数之比等于所述抽样比例。8.根据权利要求2或3所述的方法,其特征在于,所述样本数据抽取规则包括抽样份数,所述样本数据抽取规则用于指示从本地的样本数据集中抽取所述抽样份数的样本数据;所述第一客户终端根据样本数据抽取规则,从本地的样本数据集中获取多份目标样本数据,包括:所述第一客户终端根据所述抽样份数,从所述本地的样本数据集中抽取所述多份目标样本数据,其中,所述目标样本数据的份数等于所述抽样份数。9.根据权利要...
【专利技术属性】
技术研发人员:卓本刚,黄启军,陈瑞钦,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。