【技术实现步骤摘要】
一种基于联邦学习的数据处理方法、装置、设备及介质
[0001]本申请涉及计算机
,尤其涉及人工智能领域,具体涉及一种基于联邦学习的数据处理方法、装置、设备及介质。
技术介绍
[0002]联邦学习(Federated Learning)是指:在无需交换多个参与方持有的特征数据的前提下,仅通过交换中间结果实现分布式模型训练的技术。
[0003]目前,联邦学习是通过多个参与方中的Host参与方(或简称为Host方,即只持有样本的特征数据的参与方)将中间结果发送至Guest参与方(或简称为Guest方,即持有样本的特征数据和标签数据的参与方),由Guest方融合所有中间结果(包括Host方和Guest方)后执行后续联邦学习。由此可见,传统联邦学习的Host方会将中间结果发送至Guest方,这导致Guest方很可能缓存Host侧的中间结果,并将Host侧的中间结果应用于己方其他任务(或业务),从而造成Host侧的数据资产的泄露,降低数据资产的安全性和隐私性。
技术实现思路
[0004]本申请实施例提供一种基于联邦学习的数据处理方法、装置、设备及介质,该方法能够有效避免数据资产的泄露,提升数据资产的安全性。
[0005]一方面,本申请实施例提供了一种基于联邦学习的数据处理方法,联邦学习的参与方包括第一参与方和第二参与方;第一参与方持有样本的第一特征数据和标签数据,第二参与方持有样本的第二特征数据;第一参与方和第二参与方持有的样本相同且样本的特征数据不同;该方法包括:获取第一特征向量和第二特征 ...
【技术保护点】
【技术特征摘要】
1.一种基于联邦学习的数据处理方法,其特征在于,所述联邦学习的参与方包括第一参与方和第二参与方;所述第一参与方持有样本的第一特征数据和标签数据,所述第二参与方持有样本的第二特征数据;所述第一参与方和所述第二参与方持有的样本相同且样本的特征数据不同;所述方法包括:获取第一特征向量和第二特征向量;所述第一特征向量由所述第一参与方对持有的样本的第一特征数据进行底部特征处理得到;所述第二特征向量由所述第二参与方对持有的样本的第二特征数据进行底部特征处理得到;将所述第一特征向量和所述第二特征向量进行融合处理,得到融合特征向量;对所述融合特征向量进行顶部特征处理,得到参考特征向量;以及,将所述参考特征向量返回至所述第一参与方,使得所述第一参与方基于所述参考特征向量进行联邦学习。2.如权利要求1所述的方法,其特征在于,所述联邦学习基于联邦学习模型来执行;所述联邦学习模型包括第一学习模型和第二学习模型;所述第一学习模型设置于所述第一参与方侧;所述第二学习模型设置于所述第二参与方侧;其中,所述第二学习模型中包含顶部模型。3.如权利要求2所述的方法,其特征在于,所述融合处理和所述顶部特征处理是通过调用所述第二学习模型中的所述顶部模型执行的;所述融合处理包括以下任一种:特征拼接运算,或者,均值运算。4.如权利要求1所述的方法,其特征在于,所述将所述参考特征向量返回至所述第一参与方之后,还包括:接收所述第一参与方发送的关于所述参考特征向量的反向传播梯度;所述反向传播梯度用于表征所述参考特征向量对所述联邦学习的学习影响程度;基于所述反向传播梯度,对设置于第二参与方侧的第二学习模型进行优化。5.如权利要求4所述的方法,其特征在于,所述第二学习模型中包含顶部模型;所述基于所述反向传播梯度,对设置于第二参与方侧的第二学习模型进行优化,包括:采用链式法则并基于关于所述参考特征向量的反向传播梯度,计算所述第二学习模型中所述顶部模型的模型参数的参数梯度;所述顶部模型的模型参数的参数梯度用于指示:所述顶部模型的模型参数对所述联邦学习的学习影响程度;根据所述顶部模型的模型参数的参数梯度,对所述顶部模型的模型参数进行优化。6.一种基于联邦学习的数据处理方法,其特征在于,所述联邦学习的参与方包括第一参与方和第二参与方;所述第一参与方持有样本的第一特征数据和标签数据,所述第二参与方持有样本的第二特征数据;所述第一参与方和所述第二参与方持有的样本相同且样本的特征数据不同;所述方法包括:获取第一特征向量;所述第一特征向量由所述第一参与方对持有的样本的第一特征数据进行底部特征处理得到;将所述第一特征向量发送至所述第二参与方,使得所述第二参与方将所述第一特征向量和第二特征向量进行融合处理得到融合特征向量,并对所述融合特征向量进行顶部特征处理得到参考特征向量,并将所述参考特征向量返回至所述第一参与方;所述第二特征向
量由所述第二参与方对持有的样本的第二特征数据进行底部特征处理得到;接收所述第二参与方发送的参考特征向量,并基于所述参考特征向量进行联邦学习。7.如权利要求6所述的方法,其特征在于,所述基于所述参考特征向量进行联邦学习,包括:基于所述参考特征向量预测所述联邦学习的业务预测结果;采用链式法则并基于所述业务预测结果、所述样本的标签数据和所述联邦学习的损失函数,计算关于所述参考特征向量的原传播梯度;基于关于所述参考特征向量的原传播梯度、所述样本的扰动标签数据和矫正项,计算关于所述参考特征向量的反向传播梯度;所述扰动标签数据是对所述样本的标签数据进行扰动所得到的;所述矫正项用于平衡所述扰动标签数据对所述联邦学习的精度影响;将关于所述参考特征向量的反向传播梯度发送至所述第二参与方,使得所述第二参与方基于所述反向传播梯度对设置于第二参与方侧的第二学习模型进行优化。8.如权利要求7所述的方法,其特征在于,所述基于所述参考特征向量预测所述联邦学习的业务预测结果,包括:对所述参考特征向量进行顶部特征处理,得到所述联邦学习的业务预测结果。9.如权利要求7所述的方法,其特征在于,所述基于所述参考特征向量预测所述联邦学习的业务预测结果,包括:对所述参考特征向量和所述第一特征向量进行融合处理,得到候选特征向量;对所述候选特征向量进行顶部特征处理,得到所述联邦学习的业务预测结果。10.如权利要求7所述的方法,其特征在于,所述基于关于所述参考特征向量的原传播梯度、所述样本的扰动标签数据和矫正项,计算关于所述参考特征向量的反向传播梯度,包括:按照差分隐私的定义对所述样本的标签数据进行扰动处理,得到所述样本的扰动标签数据;基于所述样本的扰动标签数据和所述损失函数,构建矫正项;基于所述样本的扰动标签数据、关于所述参考特征向量的原传播梯度和所述矫正项,计算关于所述参考特征向量的反向传播梯度。11.一种基于联邦学习的数据处理方法,其特征在于,所述联邦学习的参与方包括第一参与方和第二参与方;所述第一参与方持有样本的第一特征数据和标签数据,所述第二参与方持有样本的...
【专利技术属性】
技术研发人员:黄紫岳,蒋杰,刘煜宏,陈鹏,程勇,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。