数据处理的方法及装置制造方法及图纸

技术编号:24575625 阅读:17 留言:0更新日期:2020-06-21 00:20
本申请实施例提供一种数据处理的方法及装置,涉及数据处理技术领域,具体包括:第一服务器可以获取用户标识对应于所述第一机构的第一用户特征,并将第一用户特征输入设置于所述第一服务器的第一模型,并利用所述第一模型输出第一预测结果;第二服务器可以获取用户标识对应于所述第二机构的第二用户特征,并将第二用户特征输入设置于所述第二服务器的第二模型,并利用所述第二模型输出第二预测结果。第二服务器将第二预测结果发送给第一服务器,则第一服务器可以汇总第一预测结果和第二预测结果,得到全面、准确的目标预测结果。

Data processing method and device

【技术实现步骤摘要】
数据处理的方法及装置
本申请涉及数据处理的大数据
,尤其涉及一种数据处理的方法及装置。
技术介绍
在大数据领域,数据的多样、完整程度对数据分析具有较大影响。现有技术中,由于机构之间的竞争或法律限制等原因,不同机构通常具有较为孤立的数据,在基于神经网络的建模中,各机构通常基于自身的数据和样本建立模型。例如,在金融机构中,银行拥有用户的存款、账户交易流水、贷款金额和消费记录等数据,金融机构通常只能基于自身的上述数据建模;在互联网机构中,互联网企业拥有用户的网站浏览行为、兴趣标签和地理位置信息,互联网机构通常也只能根据自身的上述数据建模。因为现有技术中各机构的模型只是基于自身数据训练,往往不能得到准确的预测结果。
技术实现思路
本申请实施例提供一种数据处理的方法及装置,以解决现有技术中识别交通信号灯的准确度不高的技术问题。本申请实施例第一方面提供一种数据处理的方法,应用于第一服务器,所述第一服务器属于第一机构;所述方法包括:获取用户标识对应于所述第一机构的第一用户特征;将所述第一用户特征输入设置于所述第一服务器的第一模型;所述第一模型为:所述第一服务器基于所述第一机构的训练样本以及第二机构的训练样本,采用纵向联邦学习方法训练得到的;所述第二机构的用户特征与所述第一机构的用户特征不同;利用所述第一模型输出第一预测结果;接收来自第二服务器的第二预测结果;所述第二服务器属于所述第二机构;所述第二预测结果为:所述第二服务器中的第二模型根据所述用户标识对应于所述第二机构的第二用户特征输出的;所述第二模型为:所述第二服务器基于所述第一机构的训练样本以及所述第二机构的训练样本,采用纵向联邦学习方法训练得到的;汇总所述第一预测结果和所述第二预测结果,得到目标预测结果。第一机构的第一服务器中设置第一模型,第二机构的第二服务器中设置第二模型,第一模型和第二模型为各自的服务器基于所述第一机构的训练样本以及第二机构的训练样本,采用纵向联邦学习方法训练得到的,因此,第一模型输出的预测结果与第二模型输出的预测结构可以进行汇总,得到全面、准确的预测结果。可选的,所述第一服务器设置有第一可信执环境TEE设备,所述第二服务器设置有第二TEE设备,所述方法还包括:基于所述第一TEE设备、所述第一机构对应的第一样本数据、所述第二TEE设备和所述第二机构对应的第二样本数据,采用纵向联邦学习方法训练得到所述第一模型。这样第一TEE设备和第二TEE设备可以采用硬件加密方式,取代了同态加密中的基于加密后数据求聚合,在enclave里明文聚合,这样效率大大增加。可选的,所述基于所述第一TEE设备、所述第一机构对应的第一样本数据、所述第二TEE设备和所述第二机构对应的第二样本数据,采用纵向联邦学习方法训练得到所述第一模型,包括:根据所述第一机构对应的第一样本数据训练得到第一预设模型;将所述第一预设模型设置在所述第一TEE设备中;利用所述第一TEE设备计算所述第一预设模型的第一中间值,并硬件加密所述第一中间值,得到第一加密中间值;接收来自所述第二TEE设备的第二加密中间值;所述第二加密中间值为:所述第二TEE设备利用第二预设模型计算并加密得到的;所述第二预设模型为:利用所述第二机构对应的第二样本数据训练得到的;向所述第二TEE设备发送残差,所述残差为根据所述第一加密中间值和所述第二加密中间值计算得到的;接收来自所述第二TEE设备的第二加密梯度;所述第二加密梯度为所述第二TEE设备根据所述残差重新计算第二梯度,并硬件加密所述第二梯度得到的;利用所述第一TEE设备根据所述残差计算第一梯度,并硬件加密所述第一梯度得到第一加密梯度;根据所述第一加密梯度和所述第一加密梯度计算目标梯度;利用所述目标梯度更新所述第一预设模型,得到所述第一模型。可选的,所述将所述第一预设模型设置在所述第一TEE设备中,包括:采用软件公钥加密所述第一预设模型的数据,得到第一公钥加密数据;将所述第一公钥加密数据设置在所述第一TEE设备中。可选的,所述利用所述第一TEE设备计算所述第一预设模型的第一中间值,包括:利用所述第一TEE设备解密所述第一公钥加密数据,得到第一明文数据;根据所述第一明文数据计算所述第一中间值。可选的,还包括:向所述第二TEE设备发送公钥;所述公钥用于所述第二TEE设备加密数据。可选的,还包括:采用硬件加密所述目标梯度;向所述第二TEE设备发送加密的目标梯度,所述目标梯度用于所述第二TEE设备更新所述第二预设模型,得到所述第二模型。本申请实施例的纵向联邦学习训练第一模型和第二模型中,不需要协作方服务器,中间值、残差、梯度等只在第一TEE设备和第二TEE设备之间传递,传递前需要用TEE加密,计算前要用TEE解密,从而可以简化联邦学习的架构。可选的,所述第一机构为金融机构,所述第二机构为互联网机构。本申请实施例第二方面提供一种数据处理的装置,应用于第一服务器,所述第一服务器属于第一机构;所述装置包括:获取模块,用于获取用户标识对应于所述第一机构的第一用户特征;设置模块,用于将所述第一用户特征输入设置于所述第一服务器的第一模型;所述第一模型为:所述第一服务器基于所述第一机构的训练样本以及第二机构的训练样本,采用纵向联邦学习装置训练得到的;所述第二机构的用户特征与所述第一机构的用户特征不同;输出模块,用于利用所述第一模型输出第一预测结果;接收模块,用于接收来自第二服务器的第二预测结果;所述第二服务器属于所述第二机构;所述第二预测结果为:所述第二服务器中的第二模型根据所述用户标识对应于所述第二机构的第二用户特征输出的;所述第二模型为:所述第二服务器基于所述第一机构的训练样本以及所述第二机构的训练样本,采用纵向联邦学习装置训练得到的;汇总模块,用于汇总所述第一预测结果和所述第二预测结果,得到目标预测结果。可选的,所述第一服务器设置有第一可信执环境TEE设备,所述第二服务器设置有第二TEE设备,所述装置还包括:训练模块,用于基于所述第一TEE设备、所述第一机构对应的第一样本数据、所述第二TEE设备和所述第二机构对应的第二样本数据,采用纵向联邦学习装置训练得到所述第一模型。可选的,所述训练模块具体用于:根据所述第一机构对应的第一样本数据训练得到第一预设模型;将所述第一预设模型设置在所述第一TEE设备中;利用所述第一TEE设备计算所述第一预设模型的第一中间值,并硬件加密所述第一中间值,得到第一加密中间值;接收来自所述第二TEE设备的第二加密中间值;所述第二加密中间值为:所述第二TEE设备利用第二预设模型计算并加密得到的;所述第二预设模型为:利用所述第二机构对应的第二样本数据训练得到的;向所述第二TEE设备发送残差,所述残差为根据所述第一加密中间值和所述第二加密中间值计算得到的本文档来自技高网...

【技术保护点】
1.一种数据处理的方法,其特征在于,应用于第一服务器,所述第一服务器属于第一机构;所述方法包括:/n获取用户标识对应于所述第一机构的第一用户特征;/n将所述第一用户特征输入设置于所述第一服务器的第一模型;所述第一模型为:所述第一服务器基于所述第一机构的训练样本以及第二机构的训练样本,采用纵向联邦学习方法训练得到的;所述第二机构的用户特征与所述第一机构的用户特征不同;/n利用所述第一模型输出第一预测结果;/n接收来自第二服务器的第二预测结果;所述第二服务器属于所述第二机构;所述第二预测结果为:所述第二服务器中的第二模型根据所述用户标识对应于所述第二机构的第二用户特征输出的;所述第二模型为:所述第二服务器基于所述第一机构的训练样本以及所述第二机构的训练样本,采用纵向联邦学习方法训练得到的;/n汇总所述第一预测结果和所述第二预测结果,得到目标预测结果。/n

【技术特征摘要】
1.一种数据处理的方法,其特征在于,应用于第一服务器,所述第一服务器属于第一机构;所述方法包括:
获取用户标识对应于所述第一机构的第一用户特征;
将所述第一用户特征输入设置于所述第一服务器的第一模型;所述第一模型为:所述第一服务器基于所述第一机构的训练样本以及第二机构的训练样本,采用纵向联邦学习方法训练得到的;所述第二机构的用户特征与所述第一机构的用户特征不同;
利用所述第一模型输出第一预测结果;
接收来自第二服务器的第二预测结果;所述第二服务器属于所述第二机构;所述第二预测结果为:所述第二服务器中的第二模型根据所述用户标识对应于所述第二机构的第二用户特征输出的;所述第二模型为:所述第二服务器基于所述第一机构的训练样本以及所述第二机构的训练样本,采用纵向联邦学习方法训练得到的;
汇总所述第一预测结果和所述第二预测结果,得到目标预测结果。


2.根据权利要求1所述的方法,其特征在于,所述第一服务器设置有第一可信执环境TEE设备,所述第二服务器设置有第二TEE设备,所述方法还包括:
基于所述第一TEE设备、所述第一机构对应的第一样本数据、所述第二TEE设备和所述第二机构对应的第二样本数据,采用纵向联邦学习方法训练得到所述第一模型。


3.根据权利要求2所述的方法,其特征在于,所述基于所述第一TEE设备、所述第一机构对应的第一样本数据、所述第二TEE设备和所述第二机构对应的第二样本数据,采用纵向联邦学习方法训练得到所述第一模型,包括:
根据所述第一机构对应的第一样本数据训练得到第一预设模型;
将所述第一预设模型设置在所述第一TEE设备中;
利用所述第一TEE设备计算所述第一预设模型的第一中间值,并硬件加密所述第一中间值,得到第一加密中间值;
接收来自所述第二TEE设备的第二加密中间值;所述第二加密中间值为:所述第二TEE设备利用第二预设模型计算并加密得到的;所述第二预设模型为:利用所述第二机构对应的第二样本数据训练得到的;
向所述第二TEE设备发送残差,所述残差为根据所述第一加密中间值和所述第二加密中间值计算得到的;
接收来自所述第二TEE设备的第二加密梯度;所述第二加密梯度为所述第二TEE设备根据所述残差重新计算第二梯度,并硬件加密所述第二梯度得到的;
利用所述第一TEE设备根据所述残差计算第一梯度,并硬件加密所述第一梯度得到第一加密梯度;
根据所述第一加密梯度和所述第一加密梯度计算目标梯度;
利用所述目标梯度更新所述第一预设模型,得到所述第一模型。


4.根据权利要求3所述的方法,其特征在于,所述将所述第一预设模型设置在所述第一TEE设备中,包括:
采用软件公钥加密所述第一预设模型的数据,得到第一公钥加密数据;
将所述第一公钥加密数据设置在所述第一TEE设备中。


5.根据权利要求4所述的方法,其特征在于,所述利用所述第一TEE设备计算所述第一预设模型的第一中间值,包括:
利用所述第一TEE设备解密所述第一公钥加密数据,得到第一明文数据;
根据所述第一明文数据计算所述第一中间值。


6.根据权利要求3-5任一项所述的方法,其特征在于,还包括:
向所述第二TEE设备发送公钥;所述公钥用于所述第二TEE设备加密数据。


7.根据权利要求3-5任一项所述的方法,其特征在于,还包括:
采用硬件加密所述目标梯度;
向所述第二TEE设备发送加密的目标梯度,所述目标梯度用于所述第二TEE设备更新所述第二预设模型,得到所述第二模型。


8.根据权利要求1所述的方法,其特征在于,所述第一机构为金融机构,所述第二机构为互联网机构。


9.一种数据处理的装置,其特征在于,应用于第一服务器,所述第一服务器属于第一机构;所述装置包括:
获取模块,用于获取用户标识对应于所述第一机构的第一用户特征;

【专利技术属性】
技术研发人员:刘昊骋方灵鹏
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1