数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:33511002 阅读:51 留言:0更新日期:2022-05-19 01:19
本发明专利技术公开了一种数据处理方法、装置、设备及存储介质,所述方法包括:获取数据库脚本语句,数据库脚本语句与第一样本数据和第二样本数据相关联,第一样本数据为第一客户终端本地数据库中的样本数据;根据数据库脚本语句,确定第二客户终端,第二样本数据为第二客户终端本地数据库中的样本数据;根据数据库脚本语句和加密算法,与第二客户终端进行第一样本数据和第二样本数据的数据对齐,获得第一样本数据和第二样本数据的交集数据,交集数据用于联邦学习。本发明专利技术能够实现联邦学习中不同客户终端上的样本数据进行对齐,降低联邦学习中样本数据对齐的复杂度,并提高联邦学习中样本数据对齐的效率。对齐的效率。对齐的效率。

【技术实现步骤摘要】
数据处理方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种数据处理方法、装置、设备及存储介质。

技术介绍

[0002]联邦机器学习(Federated machine learning),又称联邦学习(Federated Learning),能够在数据不出本地的前提下,联合各方进行数据使用和协同建模,成为隐私保护计算中的一种常用方法。
[0003]在联邦学习过程中,机器模型训练的多个参与者拥有不同但能够对齐的数据。为了使得联邦学习的建模效果与将各个参与者拥有的数据放在一起进行建模的效果相差不大,在模型训练前,不同参与者之间需要进行数据对齐。
[0004]联邦学习中不同参与者的数据都是本地存储,不同参与者之间的数据对齐为跨平台或者跨网络的数据对齐,其复杂度还有待降低。

技术实现思路

[0005]本专利技术的主要目的在于提供一种数据处理方法、装置、设备及存储介质,旨在联邦学习中不同客户终端数据对齐的复杂度较高的技术问题。
[0006]为实现上述目的,本专利技术提供一种数据处理方法,应用于第一客户终端,所述方法包括:
[0007]获取数据库脚本语句,所述数据库脚本语句与第一样本数据和第二样本数据相关联,所述第一样本数据为所述第一客户终端本地数据库中的样本数据;
[0008]根据所述数据库脚本语句,确定第二客户终端,所述第二样本数据为所述第二客户终端本地数据库中的样本数据;
[0009]根据所述数据库脚本语句和加密算法,与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐,获得所述第一样本数据与所述第二样本数据的交集数据,所述交集数据用于联邦学习。
[0010]可选的,所述数据库脚本语句包括所述第一样本数据的标识信息,与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐之前,所述方法还包括:
[0011]根据所述第一样本数据的标识信息,在所述第一客户终端的本地数据库中获取所述第一样本数据。
[0012]可选的,所述数据库脚本语句还包括所述第二样本数据的标识信息,所述根据所述数据库脚本语句,确定第二客户终端,包括:
[0013]根据所述第二样本数据的标识信息和预设的样本数据分布信息,确定所述第二客户终端,所述样本数据分布信息用于指示样本数据的标识信息与所属客户终端的对应关系。
[0014]可选的,所述数据库脚本语句还包括样本对齐参考信息,所述样本对齐参考信息
包括如下一项或多项:样本ID、样本特征,所述根据所述数据库脚本语句和加密算法,与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐,包括:
[0015]根据所述加密算法,与所述第二客户终端进行至少一个第一元素值和至少一个第二元素值的数据对齐,获得所述交集数据;
[0016]其中,所述第一元素值为所述第一样本数据中与所述样本对齐参考信息对应的元素值,所述第二元素值为所述第二样本数据中与所述样本对齐参考信息对应的元素值。
[0017]可选的,所述根据所述加密算法,与所述第二客户终端进行至少一个第一元素值和至少一个第二元素值的数据对齐,获得所述交集数据,包括:
[0018]对各所述第一元素值进行加密,获得所述第一加密数据;
[0019]将所述第一加密数据发送给所述第二客户终端,并接收所述第二客户返回的第二加密数据,所述第二加密数据与加密的各所述第二元素值相关联;
[0020]根据所述第一加密数据和所述第二加密数据,对加密的各所述第一元素值和加密的各所述第二元素值进行数据对齐,获得所述交集数据。
[0021]可选的,所述根据所述数据库脚本语句,确定第二客户终端之前,所述方法还包括:
[0022]对所述数据库脚本语句进行编译,获得编译后的语法单元;
[0023]根据所述编译后的语法单元,获得所述第一样本数据的标识信息、所述第二样本数据的标识信息和所述样本对齐参考信息。
[0024]可选的,所述数据库脚本语句为结构化查询语言SQL语句,所述结构化查询语言SQL语句包括所述第一样本数据的文件名、所述第二样本数据的文件名和所述样本对齐参考信息。
[0025]可选的,所述方法还包括:
[0026]将所述交集数据发送给所述第二客户终端。
[0027]可选的,与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐之前,所述方法还包括:
[0028]将所述数据库脚本语句发送给所述第二客户终端。
[0029]本专利技术还提供一种数据处理装置,所述装置包括:
[0030]获取模块,用于获取数据库脚本语句,所述数据库脚本语句与第一样本数据和第二样本数据相关联,所述第一样本数据为所述第一客户终端本地数据库中的样本数据;
[0031]确定模块,用于根据所述数据库脚本语句,确定第二客户终端,所述第二样本数据为所述第二客户终端本地数据库中的样本数据;
[0032]交集模块,用于根据所述数据库脚本语句和加密算法,与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐,获得所述第一样本数据与所述第二样本数据的交集数据,所述交集数据用于联邦学习。
[0033]本专利技术还提供一种数据处理设备,所述数据处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如前述任一项所述的数据处理方法的步骤。
[0034]本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如前述任一项所述的数据处理方法的步
骤。
[0035]本专利技术中,第一客户终端在获取与第一样本数据和第二样本数据相关联的数据库脚本语句之后,根据数据库脚本语句确定第二样本数据所在的第二客户终端,根据数据库脚本语句和加密算法,与第二客户终端进行第一样本数据和第二样本数据的数据对齐,得到第一样本数据和第二样本数据的交集数据。因此,在满足联邦学习的数据安全的前提下,利用数据库脚本语句实现联邦学习中不同客户终端之间的数据对齐,且有效地降低了不同客户终端之间数据对齐的复杂度,提高了不同客户终端之间数据对齐的效率。
附图说明
[0036]图1为本专利技术实施例提供的一种应用场景示意图;
[0037]图2为本专利技术实施例提供的一种数据处理方法的流程示意图;
[0038]图3为本专利技术实施例提供的另一种数据处理方法的流程示意图;
[0039]图4为本专利技术实施例提供的机构A和机构B进行数据对齐的示例图;
[0040]图5为本专利技术提供的一种数据处理装置的结构示意图;
[0041]图6为本专利技术提供的一种数据处理设备的结构示意图。
[0042]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0043]下面将参照附图更详细地本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,应用于第一客户终端,包括:获取数据库脚本语句,所述数据库脚本语句与第一样本数据和第二样本数据相关联,所述第一样本数据为所述第一客户终端本地数据库中的样本数据;根据所述数据库脚本语句,确定第二客户终端,所述第二样本数据为所述第二客户终端本地数据库中的样本数据;根据所述数据库脚本语句和加密算法,与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐,获得所述第一样本数据与所述第二样本数据的交集数据,所述交集数据用于联邦学习。2.根据权利要求1所述的方法,其特征在于,所述数据库脚本语句包括所述第一样本数据的标识信息,与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐之前,所述方法还包括:根据所述第一样本数据的标识信息,在所述第一客户终端的本地数据库中获取所述第一样本数据。3.根据权利要求2所述的方法,其特征在于,所述数据库脚本语句还包括所述第二样本数据的标识信息,所述根据所述数据库脚本语句,确定第二客户终端,包括:根据所述第二样本数据的标识信息和预设的样本数据分布信息,确定所述第二客户终端,所述样本数据分布信息用于指示样本数据的标识信息与所属客户终端的对应关系。4.根据权利要求3所述的方法,其特征在于,所述数据库脚本语句还包括样本对齐参考信息,所述样本对齐参考信息包括如下一项或多项:样本ID、样本特征,所述根据所述数据库脚本语句和加密算法,与所述第二客户终端进行所述第一样本数据和所述第二样本数据的数据对齐,包括:根据所述加密算法,与所述第二客户终端进行至少一个第一元素值和至少一个第二元素值的数据对齐,获得所述交集数据;其中,所述第一元素值为所述第一样本数据中与所述样本对齐参考信息对应的元素值,所述第二元素值为所述第二样本数据中与所述样本对齐参考信息对应的元素值。5.根据权利要求4所述的方法,其特征在于,所述根据所述加密算法,与所述第二客户终端进行至少一个第一元素值和至少一个第二元素值的数据对齐,获得所述交集数据,包括:对各所述第一元素值进行加密,获得第一加密数据;将所述第一加密数据发送给所述第二客户终端,并接收所述第二客户返回的第二加密数据...

【专利技术属性】
技术研发人员:林江淼黄启军黄铭毅陈瑞钦刘玉德
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1