探索联邦学习隐私的交互可视化系统技术方案

技术编号:36256166 阅读:12 留言:0更新日期:2023-01-07 09:51
本申请涉及一种探索联邦学习隐私的交互可视化系统。所述系统包括后端计算模块和前端视图模块;数据拥有者从前端视图模块选择训练样本,后端计算模块根据训练样本以及全局模型,训练本地模型,根据攻击方式攻击本地模型训练过程,将攻击结果显示在前端视图模块中,采用差分隐私方式保护本地模型隐私,并在前端视图模块显示隐私保护强度调节接口,显示训练样本自定义接口以使数据拥有者根据攻击结果选择训练样本,根据数据拥有者调节训练样本自定义接口的信息,调用模型遗忘分析算法,分析得到训练样本的当前本地训练状态以及当前训练所得模型的准确性,并展示在前端视图模块中。采用本系统能够提高联邦学习的安全可解释性,优化交互过程中的时延。优化交互过程中的时延。优化交互过程中的时延。

【技术实现步骤摘要】
探索联邦学习隐私的交互可视化系统


[0001]本申请涉及联邦学习
,特别是涉及一种探索联邦学习隐私的交互可视化系统。

技术介绍

[0002]无处不在的智能设备促进了我们日常生活中数据的持续感知和生成,但是暴露这些数据会损害用户隐私,为了安全地发现这些无处不在的数据所有者中的知识,联邦学习作为一种分布式机器学习范式最近受到了关注。它允许数据所有者(又称终端)将敏感数据保存在本地,并将训练好的机器学习模型共享给一个集中式服务器,用以聚合生成一个全局模型。因此,它被认为以一种保护隐私的方式打破数据孤岛。目前,联邦学习已经在诸多隐私敏感领域开展应用,如医疗疾病诊断和金融反洗钱等。
[0003]尽管联邦学习的本质是为了保护隐私,但研究发现其仍存在严重的隐私漏洞,考虑到共享的参数是本地数据特征的表示,攻击者可以推断属性(例如,客户中是否有特定疾病的图像),甚至可以有条件地重构训练后的图像,重构的人脸图像可能会被用于恶意换脸等。对一般数据所有者而言,联邦学习相当于“黑盒”,直接采用隐私增强技术(例如,差分隐私等)对用户的可解释性差,用户对其隐私保护情况的知悉不足,而且,不同的训练样本通常会面临不同程度的隐私泄露风险,那么数据所有者如何从复杂的参数中理解隐私上下文呢?不同的数据所有者对样本的隐私敏感性和效用期望(如激励、模型性能)也存在较大差异,如何指导数据所有者根据他们的偏好调整隐私设置?因此,迫切需要一种交互式的系统来辅助数据所有者探索隐私情况。
[0004]为了缓解这些担忧,已有工作将可视化和联邦学习的技术结合,但这些工作大多是从全局服务器的角度,用来分析和优化模型性能。也有工作从终端的角度展开研究。FATE部署了他们的可视化工具FATEBoard,为终端提供丰富的可视化面板监控所有正在运行的任务的进度,跟踪整个过程,并记录每个算法组件的详细信息。该工作是为了通过可视化的训练过程,吸引数据拥有者理解、参与和探索联邦学习。
[0005]然而,这些研究主要目的是检测分布式终端的训练状态和优化联邦聚合模型,忽略了训练过程中的隐私问题是影响用户如何看待联邦学习的一个重要前提。因此,现有技术存在不支持终端探索联邦学习隐私泄露情况的问题,难以提高联邦学习的安全可解释性。

技术实现思路

[0006]基于此,有必要针对上述技术问题,提供一种探索联邦学习隐私的交互可视化系统。
[0007]一种探索联邦学习隐私的交互可视化系统,所述系统包括:
[0008]后端计算模块和前端视图模块;
[0009]数据拥有者从所述前端视图模块选择训练样本,后端计算模块根据所述训练样本
以及从全局服务器下载的全局模型,对所述全局模型进行训练,获得本地模型;
[0010]后端计算模块根据预先选择的攻击方式,对所述本地模型进行攻击,并将攻击结果显示在所述前端视图模块中;
[0011]后端计算模块采用差分隐私方式对所述本地模型进行隐私保护,并在所述前端视图模块显示隐私保护强度的调节接口,以使数据拥有者根据攻击结果调节所述隐私保护强度的调节接口;
[0012]后端计算模块在所述前端视图模块显示训练样本自定义接口,以使数据拥有者根据所述攻击结果调节所述训练样本自定义接口;
[0013]后端计算模块根据数据拥有者调节所述训练样本自定义接口的信息,调用预先设置的模型遗忘分析算法,分析得到训练样本的当前本地训练的状态以及当前训练所得模型的准确性,并展示在所述前端视图模块中。
[0014]在其中一个实施例中,还包括:后端计算模块利用沙普利值法计算数据拥有者的本地隐私数据集中每一隐私数据对本地模型训练的贡献值;根据每一隐私数据对应的贡献值,在前端视图模块中生成对应的训练样本推荐视图;所述训练样本推荐视图包括每一训练样本信息以及训练样本对本地模型训练的贡献值。
[0015]在其中一个实施例中,还包括:将每一隐私数据对本地模型训练的贡献值初始化为零;随机打乱每一隐私数据在本地隐私数据集中的排序,得到打乱后的本地隐私数据集;后端计算模块将数据拥有者的本地模型对应的本地模型初始化为所述全局模型,根据所述本地隐私数据集训练初始化后的本地模型,并计算训练好的本地模型的初始准确性;将隐私数据从所述本地隐私数据集中移除,利用移除后的隐私数据集对本地模型进行训练,并计算隐私数据移除后对应的本地模型的准确性;根据所述初始化准确性和每一隐私数据移除后对应的本地模型的准确性,得到每一隐私数据对本地模型训练的贡献值。
[0016]在其中一个实施例中,还包括:将数据拥有者从前端视图模块选择的训练样本对应的训练集分成多个分片,根据每一所述分片进行分片模型训练,得到训练好的分片模型,聚合每一分片对应的所述分片模型,得到训练好的本地模型;将所述每一分片分为多个分段,并在每一所述分段中进行增量训练;当数据拥有者对所述训练集中的训练样本进行修改时,查找包含修改数据的分段,从所述分段的位置开始根据当前数据重新增量训练对应的分片模型,根据所述重新训练的分片模型更新所述训练好的本地模型。
[0017]在其中一个实施例中,还包括:后端计算模块根据预先选择的攻击方式,对所述本地模型进行攻击,并根据所述攻击方式下攻击成功的概率得到在所述攻击方式下每一训练样本对应的风险评分;根据所述每一训练样本对应的风险评分,在所述前端视图模块中生成对应的隐私风险视图;所述隐私风险视图包括在每一所述攻击方式下每一训练样本对应的风险评分视图以及在多种所述攻击方式下每一训练样本对应的总体风险评分视图。
[0018]在其中一个实施例中,还包括:所述后端计算模块采用满足松弛差分隐私的高斯机制对所述本地模型进行隐私保护。
[0019]在其中一个实施例中,还包括:数据拥有者根据所述攻击结果设置风险阈值,以过滤脆弱易受攻击的训练样本。
[0020]在其中一个实施例中,还包括:所述前端视图模块还包括隐私控制面板;所述隐私控制面板包括所述隐私保护调节接口和所述训练样本自定义接口。
[0021]在其中一个实施例中,还包括:数据拥有者将本地模型初始化为从全局服务器下载的全局模型;采用基于梯度下降的方法,根据所述训练样本以及预先设置的训练参数迭代训练初始化后的本地模型,并将迭代停止后输出的优化好的本地模型发送至全局服务器;
[0022]全局服务器聚合多个数据拥有者对应的优化好的本地模型以更新全局模型。
[0023]在其中一个实施例中,还包括:在所述后端计算模块对所述全局模型进行训练时,根据本地模型的训练信息,生成对应的概览视图;根据所述训练样本的当前本地训练的状态,生成对应的样本投影视图;根据当前训练所得模型的准确性,生成对应的准确性视图;所述概览视图、所述样本投影视图以及所述准确性视图显示在所述前端视图模块中。
[0024]上述探索联邦学习隐私的交互可视化系统,通过后端计算模块根据预先选择的攻击方式,对参与全局模型训练过程的本地模型进行攻击,并将攻击结果显示在前端视图模块中,能够支持数据拥有者交互探索分析存在的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种探索联邦学习隐私的交互可视化系统,其特征在于,所述系统包括:后端计算模块和前端视图模块;数据拥有者从所述前端视图模块选择训练样本,后端计算模块根据所述训练样本以及从全局服务器下载的全局模型,对所述全局模型进行训练,获得本地模型;后端计算模块根据预先选择的攻击方式,对所述本地模型进行攻击,并将攻击结果显示在所述前端视图模块中;后端计算模块采用差分隐私方式对所述本地模型进行隐私保护,并在所述前端视图模块显示隐私保护强度调节接口,以使数据拥有者根据攻击结果调节所述隐私保护强度调节接口;后端计算模块在所述前端视图模块显示训练样本自定义接口,以使数据拥有者根据所述攻击结果调节所述训练样本自定义接口;后端计算模块根据数据拥有者调节所述训练样本自定义接口的信息,调用预先设置的模型遗忘分析算法,分析得到训练样本的当前本地训练的状态以及当前训练所得模型的准确性,并展示在所述前端视图模块中。2.根据权利要求1所述的系统,其特征在于,在数据拥有者从所述前端视图模块选择训练样本之前,还包括:后端计算模块利用沙普利值法计算数据拥有者的本地隐私数据集中每一隐私数据对本地模型训练的贡献值;根据每一隐私数据对应的贡献值,在前端视图模块中生成对应的训练样本推荐视图;所述训练样本推荐视图包括每一训练样本信息以及训练样本对本地模型训练的贡献值。3.根据权利要求2所述的系统,其特征在于,所述后端计算模块利用沙普利值法计算数据拥有者的本地隐私数据集中每一隐私数据对本地模型训练的贡献值包括:将每一隐私数据对本地模型训练的贡献值初始化为零;随机打乱每一隐私数据在本地隐私数据集中的排序,得到打乱后的本地隐私数据集;后端计算模块将数据拥有者的本地模型对应的本地模型初始化为所述全局模型,根据所述本地隐私数据集训练初始化后的本地模型,并计算训练好的本地模型的初始准确性;将隐私数据从所述本地隐私数据集中移除,利用移除后的隐私数据集对本地模型进行训练,并计算隐私数据移除后对应的本地模型的准确性;根据所述初始化准确性和每一隐私数据移除后对应的本地模型的准确性,得到每一隐私数据对本地模型训练的贡献值。4.根据权利要求1所述的系统,其特征在于,所述模型遗忘分析算法包括:将数据拥有者从前端视图模块选择的训练样本对应的训练集分成多个分片,根据每一所述分片进行分片模型训练,得到训练好的分片模型,聚合每一分片对应的所述分片模型,得到训练好的本地模型;将所述每一分...

【专利技术属性】
技术研发人员:肖侬郭烨婷蔡志平周桐庆
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1