用于安全隐私数据聚合的设备和方法技术

技术编号：37293485 阅读：16 留言：0更新日期：2023-04-21 03:25

一种能够对多个原始数据集进行分析，同时保护原始数据集内的信息的隐私的计算机系统，该系统包括多个合成数据生成器和数据集线器。每个合成数据生成器被配置为：访问存储在多个原始数据存储中的对应的一个原始数据存储中的对应的原始数据集；基于所述对应的原始数据集产生合成数据生成器模型，所述合成数据生成器模型被配置为生成表示所述对应的原始数据集的合成数据集；以及将包括所述对应的合成数据集和所述合成数据生成器模型中的至少一个的合成信息推送到所述数据集线器。所述数据集线器被配置成存储从所述合成数据生成器接收的所述合成信息以供一个或多个客户端访问以进行分析。所述系统被配置成使得所述数据集线器不能直接访问所述原始数据集，并且使得所述合成数据信息只能从所述合成数据生成器推送到所述数据集线器。到所述数据集线器。到所述数据集线器。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于安全隐私数据聚合的设备和方法

[0001]本公开涉及能够对多个原始数据集进行分析同时保护原始数据集内的信息的隐私的计算机系统和计算机实施方法。特别地，但不限于，本公开涉及能够对来自多个安全源的匿名数据进行安全分析和建模而不损害原始数据源的安全性或隐私的装置。

技术介绍

[0002]机器学习和数据分析的进步，见证了原始数据价值的增长。随着原始数据价值的增长，维护数据安全性变得越来越重要，不仅是为了安全，也是为了维护隐私和遵守当地法规。
[0003]虽然单个数据集可能足以训练用于一些应用的机器学习系统，但是在某些情况下，可以通过增加训练数据集的大小来显著改善性能。单个公司通常难以获得足够量的数据来有效地训练机器学习模型。因此，可以通过组合来自不同来源(例如，来自不同公司)的数据来获得性能的改进。
[0004]如上所述，考虑到原始数据的价值和维护隐私的要求，重要的是维护数据安全性。一些计算机系统具有严格的中国墙来保护信息并遵守当地法规(例如，在银行业内)。同样，由于需要维护用户隐私，许多公司和研究组不能共享原始的非匿名数据。这可能使得跨不同数据源间的数据分析变得困难。

技术实现思路

[0005]鉴于上述情况，需要一种收集或聚合来自不同源的数据并分析数据，同时保持原有的原始数据的安全性和隐私的改进的手段。当数据是在可信计算环境之外或在彼此不完全信任的用户或系统之间共享的情况下，这是特别重要的。例如，个人数据可以受到法律或法规的保护，在实体之间(例如企业之间)或跨境共享数据可能被禁止。/>[0006]解决此问题的一个方法是利用联合机器学习。尽管如此，联合机器学习存在关于跨多个源的归一化数据以及给予系统对每个数据源的访问的要求的问题。此外，联合机器学习可能存在关于共享预测误差的隐私问题。此外，联合机器学习不允许将不同的隐私约束应用于不同的信息源。
[0007]为了解决上述问题，本文描述的实施例通过生成和共享合成数据来保护在原始数据中表示的个体的隐私，所述合成数据共享原始数据的属性，但不损害原有的原始数据的安全性或隐私。本文描述的具体实施例通过在可信环境内实施合成数据生成器并在数据集线器中跨多个源收集合成数据来提高数据安全性并减少网络的攻击面。数据集线器可以充当保护原始数据源免受攻击的基础主机，从而减少网络的攻击面。
[0008]为了保护原始数据源，网络被配置成使得合成数据只能从合成数据生成器推送，并且因此不能通过数据集线器从合成数据生成器拉取。客户(例如，数据科学家)可以经由数据集线器从多个源访问合成生成的数据，以分析数据(例如，在合成数据上训练机器学习模型)。
[0009]此外，为了保护原始数据源中引用的个体的隐私，所述合成生成器可以被配置为生成所述合成数据，以便符合设定的隐私级别(例如，设定的差异隐私级别)。
[0010]根据一个方面，提供了一种能够对多个原始数据集进行分析同时保护所述原始数据集内的信息的隐私的计算机系统。所述系统包括多个合成数据生成器和数据集线器。每个合成数据生成器被配置为：访问存储在多个原始数据存储中的对应的一个原始数据存储中的对应的原始数据集；基于所述对应的原始数据集产生合成数据生成器模型，所述合成数据生成器模型被配置为生成表示所述对应的原始数据集的合成数据集；以及将包括所述对应合成数据集和所述合成数据生成器模型中的至少一个的合成信息推送到所述数据集线器。所述数据集线器被配置成存储从所述合成数据生成器接收的所述合成信息以供一个或多个客户端访问以进行分析。所述系统被配置为使得所述数据集线器不能直接访问所述原始数据集，并且使得所述合成数据信息只能从所述合成数据生成器推送到所述数据集线器。
[0011]因此，可以通过仅共享合成数据来保护所述原始数据集的隐私。通过仅允许将合成信息推送到所述数据集线器，所述原有的原始数据集被保护。
[0012]在一个实施例中，每个合成生成器模型被配置为生成其对应的合成数据集以符合相对于其对应的原始数据集的对应的隐私级别。这可以通过在所述合成数据集内添加噪声来实现，使得所述合成数据生成器提供相对于所述原始数据集的设定级别的隐私损失。
[0013]在一个实施例中，每个合成生成器模型被配置为生成其对应的合成数据，使得对应的合成数据集根据对应的隐私级别是差异隐私的。差异隐私的隐私级别可以对应于隐私参数(epsilon(ε))值，所述隐私参数值定义通过从所述合成数据集中移除至多一个条目而实现的最大隐私损失。
[0014]根据一实施例，每个合成数据生成器被配置为根据其对应的原始数据集来更新其对应的合成数据生成器模型的一个或多个参数。因此，每个合成数据生成器可经配置以根据对应的原始数据集来训练其对应的合成数据生成器模型。可以更新(优化)每个合成数据生成器模型的参数，以根据给定的目标函数对合成数据集进行改进，例如，以减少所述合成数据集与所述原始数据集之间的误差/差异和/或增加隐私(例如，通过增加由所述合成数据生成器模型添加的噪声量)。
[0015]根据一实施例，每个合成数据生成器被限制为相对于其对应的原始数据存储的只读特权。这保护了所述原有的原始数据存储，防止数据被篡改。
[0016]根据一实施例，所述合成数据生成器中的至少一个被配置为将其对应的合成数据生成器模型推送到所述数据集线器，并且所述数据集线器被配置为，为所接收的每个合成数据生成器模型生成对应的合成数据集。因此，所述合成信息可包括合成数据及/或合成数据生成器模型。
[0017]根据一实施例，所述计算机系统包括所述一或多个客户端，其中所述一或多个客户端被配置为从所述数据集线器访问源自所述合成数据生成器中的至少两个合成数据生成器的合成数据信息，且聚合所述所访问的合成数据信息以确定跨所述所访问的合成数据信息间共享的一或多个属性。
[0018]根据一实施例，访问源自所述合成数据生成器中的至少两个合成数据生成器的所述合成数据信息包括以下中的一个或多个：从所述数据集线器拉取至少两个合成数据集；
以及从所述数据集线器拉取至少两个合成数据生成器模型，并且针对已经从所述数据集线器拉取的每个合成数据生成器模型，使用所述合成数据模型生成对应的合成数据集。
[0019]根据一实施例，聚合所述所访问的合成数据信息包括根据所述所访问的合成数据信息训练机器学习系统，以确定对应的合成数据集的一个或多个属性。所述一个或多个属性可以是表示所述所访问的合成数据信息的相关性或特征的一个或多个隐藏参数。所述训练可基于合成数据或合成数据生成器模型中的一者或两者。
[0020]根据另一实施例，所述系统被配置为确定由所述合成数据生成器模型中的一个或多个对目标提供的相对贡献。确定由所述合成数据生成器模型中的一个或多个对所述目标提供的所述相对贡献可以包括确定第一模型与第二模型之间的性能差异。可以基于第一训练数据来训练所述第一模型以实现所述目标，所述第一训练数据包含所述一或多个合成数据生成器模型或由所述一或多个合成数据生成器模型产生的合成数据。可以基于第二训练数本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种能够对多个原始数据集进行分析，同时保护原始数据集内的信息的隐私的计算机系统，所述系统包括多个合成数据生成器和数据集线器，其中：每个合成数据生成器被配置为：访问存储在多个原始数据存储中的对应的一个原始数据存储中的对应的原始数据集；基于所述对应的原始数据集，产生合成数据生成器模型，所述合成数据生成器模型被配置为生成表示所述对应的原始数据集的合成数据集；以及将包括所述对应的合成数据集和所述合成数据生成器模型中的至少一个的合成信息推送到所述数据集线器；所述数据集线器被配置成存储从所述合成数据生成器接收的所述合成信息以供一个或多个客户端访问以进行分析；以及所述系统被配置为使得所述数据集线器不能直接访问所述原始数据集，并且使得所述合成数据信息仅能够从所述合成数据生成器推送到所述数据集线器。2.根据前述权利要求中任一项所述的系统，其中，每个合成生成器模型被配置为生成其对应的合成数据集，以符合相对于其对应的原始数据集的对应的隐私级别。3.根据权利要求2所述的系统，其中，每个合成生成器模型被配置为生成其对应的合成数据，使得所述对应的合成数据集根据所述对应的隐私级别是差异隐私的。4.根据前述权利要求中任一项所述的系统，其中每个合成数据生成器被配置为基于其对应的原始数据集来更新其对应的合成数据生成器模型的一个或多个参数。5.根据前述权利要求中任一项所述的系统，其中每个合成数据生成器被限制为相对于其对应的原始数据存储的只读特权。6.根据前述权利要求中任一项所述的系统，其中所述合成数据生成器中的至少一个被配置为将其对应的合成数据生成器模型推送到所述数据集线器，以及所述数据集线器被配置为，为所接收的每个合成数据生成器模型生成对应的合成数据集。7.根据前述权利要求中任一项所述的系统，还包括一个或多个客户端，其中所述一个或多个客户端被配置为从所述数据集线器访问源自所述合成数据生成器中的至少两个合成数据生成器的合成数据信息，并且聚合所述所访问的合成数据信息以确定跨所述所访问的合成数据信息共享的一个或多个属性。8.根据权利要求7所述的系统，其中访问源自所述合成数据生成器中的至少两个合成数据生成器的所述合成数据信息包括以下中的一个或多个：从所述数据集线器拉取至少两个合成数据集；以及从所述数据集线器拉取至少两个合成数据生成器模型，并且针对已经从所述数据集线器拉...

【专利技术属性】
技术研发人员：詹姆斯，
申请(专利权)人：朦胧有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人