一种数据处理方法、系统及计算设备技术方案

技术编号:41111420 阅读:21 留言:0更新日期:2024-04-25 14:03
本申请涉及计算机技术领域,提供一种数据处理方法、系统及计算设备,用于减少模型训练的算力开销和时间开销。在该方法中,数据提供端对第一数据集包括的多个数据的N个属性进行划分,得到第二数据集和第三数据集,第二数据集包括多个数据的M个属性,第三数据集包括多个数据的(N‑M)个属性,M个属性的每个属性对训练模型的贡献度大于或等于第一阈值,(N‑M)个属性的每个属性对训练模型的贡献度小于第一阈值;基于第一加密算法对第二数据集进行加密得到第四数据集,基于对算力需求小于该第一加密算法的算力需求的第二加密算法对第三数据集进行加密得到第五数据集,以及向数据训练端发送该第四数据集和该第五数据集。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种数据处理方法、系统及计算设备


技术介绍

1、机器学习近年来愈发受到欢迎,被广泛应用于生产生活中的多个领域,如图像处理、自然语言处理等。数据训练端可以对来自数据提供端的训练数据进行建模训练,得到机器学习模型。其中的训练数据往往包含有敏感信息。为了避免泄露训练数据中的敏感信息,数据提供端可以利用同态加密算法对训练数据进行加密,再将同态加密后的训练数据发送给数据训练端。数据训练端接收到同态加密后的训练数据后,利用该同态加密后的训练数据的同态性质进行基于密文的建模训练,得到加密的模型参数,再通过同态解密恢复明文模型参数,得到最终的机器学习模型。

2、机器学习模型的性能随着训练数据的数据级的增加而增加。鉴于单个数据提供端拥有的训练数据有限,为了得到高性能的机器学习模型,数据训练端通常需要从多个数据提供端获取训练数据,意味着数据训练端需要对来自多个数据提供端的同态加密后的训练数据进行建模训练,训练数据的数据量大,且同态加密算法的计算过程复杂,这就导致模型训练的算力开销大、时间开销大。


>技术实现思路本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,应用于数据提供端,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第一加密算法是同态加密算法,所述第二加密算法是差分隐私算法。

3.根据权利要求1或2所述的方法,其特征在于,对第一数据集中包括的多个数据的N个属性进行划分,得到第二数据集和第三数据集,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:>

7.根据权利...

【技术特征摘要】

1.一种数据处理方法,其特征在于,应用于数据提供端,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述第一加密算法是同态加密算法,所述第二加密算法是差分隐私算法。

3.根据权利要求1或2所述的方法,其特征在于,对第一数据集中包括的多个数据的n个属性进行划分,得到第二数据集和第三数据集,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:

7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:

8.一种数据处理方法,其特征在于,所述方法应用于数据训练端,所述方法包括:

9.根据权利要求8所述的方法,其特征在于,所述第一加密算法是同态加密算法,所述第二加密算法是差分隐私算法。

10.根据权利要求8或9所述的方法,其特征在于,所述方法还包括:

11.根据权利要求8至10中任一项所述的方法,其特征在于,所述方法还包括:

12.根据权利要求8至11中任一项所述的方法,其特征在于,所述方法还包括:

13.根据权利要求8至12中任一项所...

【专利技术属性】
技术研发人员:沈蒙唐湘云孟晋祝烈煌薛腾飞
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1