基于隐私保护的模型训练方法及装置制造方法及图纸

技术编号:39277387 阅读:15 留言:0更新日期:2023-11-07 10:53
本说明书实施例提供了基于隐私保护的模型训练方法及装置。参与模型训练的n个用户各自的设备存储的训练样本集具有相同的特征空间、相同的类别标签空间和不同的样本空间,n个用户各自的设备中存储有相同的模型。n个用户各自的设备可以基于本地的训练样本集确定各个特征与该模型的相关性,基于该相关性确定该各个特征对应的噪声值,并在本地的训练样本集中为该各个特征的特征数据增加对应的噪声值,得到加噪的训练样本集,之后基于加噪的训练样本集对该模型进行训练,得到该模型的第一参数数据,以及向中间服务器发送第一参数数据。之后,中间服务器可以将接收到的至少部分第一参数数据发送给聚合服务器,以用于更新该模型的参数。参数。参数。

【技术实现步骤摘要】
基于隐私保护的模型训练方法及装置


[0001]本说明书实施例属于计算机
,尤其涉及基于隐私保护的模型训练方法及装置。

技术介绍

[0002]在大数据的时代背景下,训练人工智能模型所需要的数据量相当庞大,但数据在大部分情况下却是以“数据孤岛”的形式存在的。绝大部分的数据存在着质量较低、数量较少的问题,而较好质量的数据的拥有者大多是巨头公司,大实验室等,由于商业竞争模式、用户隐私、知识产权保护和法律法规监管,企业之间无法共享数据以构建一个高质量的模型。

技术实现思路

[0003]本专利技术的目的在于提供基于隐私保护的模型训练方法,能使得具有相同特征空间、不同样本空间的多个参与方协同训练模型,为本地的训练样本集中的各个特征的特征数据添加自适应噪声,并基于加噪的训练样本集对模型进行训练,如此能确保加噪的训练样本集的可用性,在不影响模型精度的同时实现隐私保护。
[0004]本说明书第一方面提供一种基于隐私保护的模型训练方法,由n个用户中任一用户的设备执行,所述n个用户各自的设备存储的训练样本集具有相同的特征空间、相同的类别标签空间和不同的样本空间,所述n个用户各自的设备中存储有相同的模型,所述方法包括:基于本地的训练样本集确定各个特征与所述模型的相关性;基于所述各个特征与所述模型的相关性,确定所述各个特征对应的噪声值;在本地的训练样本集中为所述各个特征的特征数据增加对应的噪声值,得到加噪的训练样本集;基于所述加噪的训练样本集对所述模型进行训练,得到所述模型的第一参数数据;向中间服务器发送所述第一参数数据。
[0005]本说明书第二方面提供一种基于隐私保护的模型训练方法,参与所述模型训练的n个用户各自的设备存储的训练样本集具有相同的特征空间、相同的类别标签空间和不同的样本空间,所述n个用户各自的设备中存储有相同的模型,所述方法由中间服务器执行,包括:接收所述n个用户各自的设备发送的所述模型的第一参数数据,所述第一参数数据由所述设备基于加噪的训练样本集对所述模型进行训练而获得,所述加噪的训练样本集由所述设备在基于本地的训练样本集确定各个特征与所述模型的相关性,基于所述各个特征与所述模型的相关性确定所述各个特征对应的噪声值后,通过在本地的训练样本集中为所述各个特征的特征数据增加对应的噪声值而获得;将接收到的至少部分第一参数数据发送给聚合服务器。
[0006]本说明书第三方面提供一种基于隐私保护的模型训练装置,应用于n个用户中任一用户的设备,所述n个用户各自的设备存储的训练样本集具有相同的特征空间、相同的类别标签空间和不同的样本空间,所述n个用户各自的设备中存储有相同的模型,所述装置包括:第一确定单元,被配置成基于本地的训练样本集确定各个特征与所述模型的相关性;第
二确定单元,被配置成基于所述各个特征与所述模型的相关性,确定所述各个特征对应的噪声值;加噪单元,被配置成在本地的训练样本集中为所述各个特征的特征数据增加对应的噪声值,得到加噪的训练样本集;模型训练单元,被配置成基于所述加噪的训练样本集对所述模型进行训练,得到所述模型的第一参数数据;发送单元,被配置成向中间服务器发送所述第一参数数据。
[0007]本说明书第四方面提供一种基于隐私保护的模型训练装置,参与所述模型训练的n个用户各自的设备存储的训练样本集具有相同的特征空间、相同的类别标签空间和不同的样本空间,所述n个用户各自的设备中存储有相同的模型,所述装置应用于中间服务器,包括:接收单元,被配置成接收所述n个用户各自的设备发送的所述模型的第一参数数据,所述第一参数数据由所述设备基于加噪的训练样本集对所述模型进行训练而获得,所述加噪的训练样本集由所述设备在基于本地的训练样本集确定各个特征与所述模型的相关性,基于所述各个特征与所述模型的相关性确定所述各个特征对应的噪声值后,通过在本地的训练样本集中为所述各个特征的特征数据增加对应的噪声值而获得;发送单元,被配置成将接收到的至少部分第一参数数据发送给聚合服务器。
[0008]本说明书第五方面提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行如第一方面和第二方面中任一实现方式描述的方法。
[0009]本说明书第六方面提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现如第一方面和第二方面中任一实现方式描述的方法。
[0010]本说明书第七方面提供一种计算机程序产品,当该计算机程序产品在计算机中执行时,令计算机执行如第一方面和第二方面中任一实现方式描述的方法。
[0011]在本说明书的上述实施例提供的方案中,能使得具有相同特征空间、不同样本空间的多个参与方(n个用户各自的设备)在聚合服务器的帮助下协同训练模型,保证训练样本集不出参与方本地,从而能保证数据安全和防止隐私泄露。另外,通过使得多个参与方分别基于本地的训练样本集确定各个特征与模型的相关性,基于该相关性确定该各个特征对应的噪声值,并在本地的训练样本集中为该各个特征的特征数据增加对应的噪声值,得到加噪的训练样本集,进而基于加噪的训练样本集对模型进行训练,能实现为本地的训练样本集添加自适应噪声,如为与模型的相关性较高的特征的特征数据添加较小的噪声,为与模型的相关性较低的特征的特征数据添加较大的噪声,如此能确保加噪的训练样本集的可用性,在不影响模型精度的同时实现隐私保护。
附图说明
[0012]为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0013]图1是本说明书实施例可以应用于其中的一个应用场景的示意图;
[0014]图2是本说明书实施例中模型训练过程的示意图;
[0015]图3是本说明书实施例中基于隐私保护的模型训练方法的时序图;
[0016]图4是本说明书实施例中基于隐私保护的模型训练方法的时序图;
[0017]图5是本说明书实施例中基于隐私保护的模型训练装置的结构示意图;
[0018]图6是本说明书实施例中基于隐私保护的模型训练装置的结构示意图。
具体实施方式
[0019]为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
[0020]近些年来,人工智能在各个方面取得了惊人的进步,被广泛应用到各个领域中。然而,传统机器学习、深度学习等人工智能技术在许多方面仍有所不足。传统的机器学习在训练时需要将所有的数据汇集到中心服务器,因此这种数据集中存储机器学习方法面临着数据泄露本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于隐私保护的模型训练方法,由n个用户中任一用户的设备执行,所述n个用户各自的设备存储的训练样本集具有相同的特征空间、相同的类别标签空间和不同的样本空间,所述n个用户各自的设备中存储有相同的模型,所述方法包括:基于本地的训练样本集确定各个特征与所述模型的相关性;基于所述各个特征与所述模型的相关性,确定所述各个特征对应的噪声值;在本地的训练样本集中为所述各个特征的特征数据增加对应的噪声值,得到加噪的训练样本集;基于所述加噪的训练样本集对所述模型进行训练,得到所述模型的第一参数数据;向中间服务器发送所述第一参数数据。2.根据权利要求1所述的方法,其中,所述基于本地的训练样本集确定各个特征与所述模型的相关性,包括:采用层级传播算法,基于本地的训练样本集确定各个特征与所述模型的相关性。3.根据权利要求1所述的方法,其中,所述基于所述各个特征与所述模型的相关性,确定所述各个特征对应的噪声值,包括:对于所述各个特征中的每个目标特征,基于所述各个特征与所述模型的相关性的和值、所述目标特征与所述模型的相关性、及预设的第一隐私预算,确定所述目标特征对应的第二隐私预算,并基于所述第二隐私预算从拉普拉斯分布中采样所述目标特征对应的噪声值。4.根据权利要求1所述的方法,还包括:基于所述第一参数数据,确定所述模型的模型性能;所述向中间服务器发送所述第一参数数据,包括:向中间服务器发送所述第一参数数据和所述模型性能。5.根据权利要求1所述的方法,其中,所述第一参数数据包括所述模型的第一参数或所述模型对应的梯度值。6.根据权利要求1

5之一所述的方法,还包括:从聚合服务器接收所述模型的第二参数,所述第二参数由所述聚合服务器通过对所述n个用户各自的设备提供的第一参数数据中的至少部分第一参数数据进行聚合,并基于聚合结果更新所述模型的参数而获得;使用所述第二参数更新所述模型的参数。7.一种基于隐私保护的模型训练方法,参与所述模型训练的n个用户各自的设备存储的训练样本集具有相同的特征空间、相同的类别标签空间和不同的样本空间,所述n个用户各自的设备中存储有相同的模型,所述方法由中间服务器执行,包括:接收所述n个用户各自的设备发送的所述模型的第一参数数据,所述第一参数数据由所述设备基于加噪的训练样本集对所述模型进行训练而获得,所述加噪的训练样本集由所述设备在基于本地的训练样本集确定各个特征与所述模型的相关性,基于所述各个特征与所述模型的相关性确定所述各个特征对应的噪声值后,通过在本地的训练样本集中为所述各个特征的特征数据增加对应的噪声值而获得;将接收到的至少部分第一参数数据发送给聚合服务器。8.根据权利要求7所述的方法,其中,所述将接收到的至少部分第一参数数据发送给聚
合服务器,包括:从接收到的n个第一参数数据中采样K个第一参数数据;将所述...

【专利技术属性】
技术研发人员:盖珂珂王烁魏长征吴行行丁慧王安
申请(专利权)人:蚂蚁区块链科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1