【技术实现步骤摘要】
数据处理方法、装置、设备及存储介质
[0001]本专利技术涉及数据处理
,尤其涉及一种数据处理方法、装置、设备及存储介质。
技术介绍
[0002]联邦机器学习(Federated machine learning),又称联邦学习(Federated Learning),能够在数据不出本地的前提下,联合各方进行数据使用和协同建模,成为隐私保护计算中的一种常用方法。
[0003]在联邦学习过程中,机器模型训练的多个参与者拥有不同但能够对齐的数据。为了使得联邦学习的建模效果与将各个参与者拥有的数据放在一起进行建模的效果相差不大,在模型训练前,不同参与者之间需要进行数据对齐。
[0004]联邦学习中不同参与者的数据都是本地存储,不同参与者之间的数据对齐为跨平台或者跨网络的数据对齐,其复杂度还有待降低。
技术实现思路
[0005]本专利技术的主要目的在于提供一种数据处理方法、装置、设备及存储介质,旨在联邦学习中不同客户终端数据对齐的复杂度较高的技术问题。
[0006]为实现上述目的,本专利 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于第一客户终端,包括:获取数据库脚本语句,所述数据库脚本语句与第一样本数据和第二样本数据相关联,所述第一样本数据为所述第一客户终端本地数据库中的样本数据;根据所述数据库脚本语句,确定第二客户终端,所述第二样本数据为所述第二客户终端本地数据库中的样本数据;根据所述数据库脚本语句和加密算法,与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐,获得所述第一样本数据与所述第二样本数据的交集数据,所述交集数据用于联邦学习。2.根据权利要求1所述的方法,其特征在于,所述数据库脚本语句包括所述第一样本数据的标识信息,与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐之前,所述方法还包括:根据所述第一样本数据的标识信息,在所述第一客户终端的本地数据库中获取所述第一样本数据。3.根据权利要求2所述的方法,其特征在于,所述数据库脚本语句还包括所述第二样本数据的标识信息,所述根据所述数据库脚本语句,确定第二客户终端,包括:根据所述第二样本数据的标识信息和预设的样本数据分布信息,确定所述第二客户终端,所述样本数据分布信息用于指示样本数据的标识信息与所属客户终端的对应关系。4.根据权利要求3所述的方法,其特征在于,所述数据库脚本语句还包括样本对齐参考信息,所述样本对齐参考信息包括如下一项或多项:样本ID、样本特征,所述根据所述数据库脚本语句和加密算法,与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐,包括:根据所述加密算法,与所述第二客户终端进行至少一个第一元素值和至少一个第二元素值的数据对齐,获得所述交集数据;其中,所述第一元素值为所述第一样本数据中与所述样本对齐参考信息对应的元素值,所述第二元素值为所述第二样本数据中与所述样本对齐参考信息对应的元素值。5.根据权利要求4所述的方法,其特征在于,所述根据所述加密算法,与所述第二客户终端进行至少一个第一元素值和至少一个第二元素值的数据对齐,获得所述交集数据,包括:对各所述第一元素值进行加密,获得第一加密数据;将所述第一加密数据发送给所述第二客户终端,并接收所述第二客户返回的第二加密数据...
【专利技术属性】
技术研发人员:林江淼,黄启军,黄铭毅,陈瑞钦,刘玉德,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。