基于隐私保护的模型训练方法及装置制造方法及图纸

技术编号：39277387 阅读：15 留言：0更新日期：2023-11-07 10:53

本说明书实施例提供了基于隐私保护的模型训练方法及装置。参与模型训练的n个用户各自的设备存储的训练样本集具有相同的特征空间、相同的类别标签空间和不同的样本空间，n个用户各自的设备中存储有相同的模型。n个用户各自的设备可以基于本地的训练样本集确定各个特征与该模型的相关性，基于该相关性确定该各个特征对应的噪声值，并在本地的训练样本集中为该各个特征的特征数据增加对应的噪声值，得到加噪的训练样本集，之后基于加噪的训练样本集对该模型进行训练，得到该模型的第一参数数据，以及向中间服务器发送第一参数数据。之后，中间服务器可以将接收到的至少部分第一参数数据发送给聚合服务器，以用于更新该模型的参数。参数。参数。

全部详细技术资料下载

【技术实现步骤摘要】
基于隐私保护的模型训练方法及装置

[0001]本说明书实施例属于计算机
，尤其涉及基于隐私保护的模型训练方法及装置。

技术介绍

[0002]在大数据的时代背景下，训练人工智能模型所需要的数据量相当庞大，但数据在大部分情况下却是以“数据孤岛”的形式存在的。绝大部分的数据存在着质量较低、数量较少的问题，而较好质量的数据的拥有者大多是巨头公司，大实验室等，由于商业竞争模式、用户隐私、知识产权保护和法律法规监管，企业之间无法共享数据以构建一个高质量的模型。

技术实现思路

[0003]本专利技术的目的在于提供基于隐私保护的模型训练方法，能使得具有相同特征空间、不同样本空间的多个参与方协同训练模型，为本地的训练样本集中的各个特征的特征数据添加自适应噪声，并基于加噪的训练样本集对模型进行训练，如此能确保加噪的训练样本集的可用性，在不影响模型精度的同时实现隐私保护。
[0004]本说明书第一方面提供一种基于隐私保护的模型训练方法，由n个用户中任一用户的设备执行，所述n个用户各自的设备存储的训练样本集具有相同的特征空间、相同的类别标签空间和不同的样本空间，所述n个用户各自的设备中存储有相同的模型，所述方法包括：基于本地的训练样本集确定各个特征与所述模型的相关性；基于所述各个特征与所述模型的相关性，确定所述各个特征对应的噪声值；在本地的训练样本集中为所述各个特征的特征数据增加对应的噪声值，得到加噪的训练样本集；基于所述加噪的训练样本集对所述模型进行训练，得到所述模型的第一参数数据；向中间服务器发送所述第一参...

【技术保护点】

【技术特征摘要】
1.一种基于隐私保护的模型训练方法，由n个用户中任一用户的设备执行，所述n个用户各自的设备存储的训练样本集具有相同的特征空间、相同的类别标签空间和不同的样本空间，所述n个用户各自的设备中存储有相同的模型，所述方法包括：基于本地的训练样本集确定各个特征与所述模型的相关性；基于所述各个特征与所述模型的相关性，确定所述各个特征对应的噪声值；在本地的训练样本集中为所述各个特征的特征数据增加对应的噪声值，得到加噪的训练样本集；基于所述加噪的训练样本集对所述模型进行训练，得到所述模型的第一参数数据；向中间服务器发送所述第一参数数据。2.根据权利要求1所述的方法，其中，所述基于本地的训练样本集确定各个特征与所述模型的相关性，包括：采用层级传播算法，基于本地的训练样本集确定各个特征与所述模型的相关性。3.根据权利要求1所述的方法，其中，所述基于所述各个特征与所述模型的相关性，确定所述各个特征对应的噪声值，包括：对于所述各个特征中的每个目标特征，基于所述各个特征与所述模型的相关性的和值、所述目标特征与所述模型的相关性、及预设的第一隐私预算，确定所述目标特征对应的第二隐私预算，并基于所述第二隐私预算从拉普拉斯分布中采样所述目标特征对应的噪声值。4.根据权利要求1所述的方法，还包括：基于所述第一参数数据，确定所述模型的模型性能；所述向中间服务器发送所述第一参数数据，包括：向中间服务器发送所述第一参数数据和所述模型性能。5.根据权利要求1所述的方法，其中，所述第一参数数据包括所述模型的第一参数或所述模型对应的梯度值。6.根据权利要求1
‑
5之一所述的方法，还包括：从聚合服务器接收所述模型的第二参数，所述第二参数由所述聚合服务器通过对所述n个用户各自的设备提供的第一参数数据中的至少部分第一参数数据进行聚合，并基于聚合结果更新所述模型的参数而获得；使用所述第二参数更新所述模型的参数。7.一种基于隐私保护的模型训练方法，参与所述模型训练的n个用户各自的设备存储的训练样本集具有相同的特征空间、相同的类别标签空间和不同的样本空间，所述n个用户各自的设备中存储有相同的模型，所述方法由中间服务器执行，包括：接收所述n个用户各自的设备发送的所述模型的第一参数数据，所述第一参数数据由所述设备基于加噪的训练样本集对所述模型进行训练而获得，所述加噪的训练样本集由所述设备在基于本地的训练样本集确定各个特征与所述模型的相关性，基于所述各个特征与所述模型的相关性确定所述各个特征对应的噪声值后，通过在本地的训练样本集中为所述各个特征的特征数据增加对应的噪声值而获得；将接收到的至少部分第一参数数据发送给聚合服务器。8.根据权利要求7所述的方法，其中，所述将接收到的至少部分第一参数数据发送给聚
合服务器，包括：从接收到的n个第一参数数据中采样K个第一参数数据；将所述...

【专利技术属性】
技术研发人员：盖珂珂，王烁，魏长征，吴行行，丁慧，王安，
申请(专利权)人：蚂蚁区块链科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人