数据产品发布方法或系统技术方案

技术编号:26428879 阅读:38 留言:0更新日期:2020-11-20 14:27
一种计算机实现的数据产品发布方法或系统。数据产品发布是使用诸如差分私有系统的隐私保护系统从敏感数据集导出。诸如噪声添加量值的隐私保护参数可配置作为所述数据产品发布方法或系统的一部分,以改变维持所述敏感数据集的隐私与使所述数据产品发布有用之间的平衡。

【技术实现步骤摘要】
【国外来华专利技术】数据产品发布方法或系统专利技术背景1.专利
本专利技术的领域涉及计算机实现的数据产品发布方法或系统。更特别地,但是非排他地,本专利技术涉及用于管理数据产品发布的隐私保护参数的计算机实现的过程。本专利文件的公开的一部分包括受版权保护的材料。版权所有者不反对由任何人以专利文件或专利公开出现在美国专利与商标局专利文件或记录中的形式传真复制所述专利文件或专利公开,但是另外保留任何所有版权权利。2.现有技术的描述在某些情况下,发布有关私有数据集的聚合统计数据(例如,列联表)可能导致有关个人的私有信息的披露。通常,不明显的是关于人群的一组聚合统计数据如何能够泄漏有关个人的信息且手动输出检查无法检测到所有这些意外的披露。研究人员已经专利技术出用于减轻私人信息泄漏的风险的技术。两种这样的技术是抑制有关小团体的统计数据,和向统计数据添加随机噪声。很少建立衡量与发布聚合统计数据相关联的风险的技术。一种评估风险的方法是使用理论上的隐私模型,诸如差分隐私。理论模型就统计数据在隐私方面的安全性提供了某种度量,但理论模型存在至少两个问题本文档来自技高网...

【技术保护点】
1.一种计算机实现的数据产品发布方法,其中所述数据产品发布是统计数据的有界或固定集合,所述集合由数据持有者预定义并且使用诸如差分私有系统的隐私保护系统从敏感数据集导出;并且其中隐私保护参数可配置为所述数据产品发布方法的一部分,以改变维持所述敏感数据集的隐私与使所述数据产品发布有用之间的平衡。/n

【技术特征摘要】
【国外来华专利技术】20171218 GB 1721189.7;20180830 GB 1814105.11.一种计算机实现的数据产品发布方法,其中所述数据产品发布是统计数据的有界或固定集合,所述集合由数据持有者预定义并且使用诸如差分私有系统的隐私保护系统从敏感数据集导出;并且其中隐私保护参数可配置为所述数据产品发布方法的一部分,以改变维持所述敏感数据集的隐私与使所述数据产品发布有用之间的平衡。


2.如权利要求1所述的方法,其中隐私保护参数包括以下一项或多项:噪声值分布、噪声添加量值、ε、增量或所述敏感数据集的被二次采样的行的分数。


3.如权利要求1或2所述的方法,其中通过以下方式来评估所述数据产品的有用性:确定能够从所述敏感数据集或从不受隐私保护的数据产品发布得出的结论是否仍能够从所述数据产品发布得出。


4.如权利要求3所述的方法,其中结论包括能够从所述敏感数据集或从不受隐私保护的数据产品发布提取的任何信息或见解,诸如:最大值、相关变量、组均值差和时间模式。


5.如任一前述权利要求所述的方法,其中通过将多种不同的攻击应用于所述数据产品发布来评估所述敏感数据集的隐私。


6.如任一前述权利要求所述的方法,其中将噪声值分布添加到所述数据产品发布中的所述统计数据。


7.如权利要求6所述的方法,其中所述噪声分布是高斯噪声分布或拉普拉斯噪声分布。


8.如任一前述权利要求所述的方法,并且其中自动地选择、生成、确定或设置一个或多个隐私保护参数,并且其中所述隐私保护参数定义维持所述敏感数据集的隐私与使所述数据产品发布有用之间的平衡。


9.如任一前述权利要求所述的方法,其中所述数据产品发布由所述数据持有者配置。


10.如任一前述权利要求所述的方法,其中用户可配置的数据产品相关参数由所述数据持有者输入。


11.如任一前述权利要求所述的方法,其中所述敏感数据集由所述数据持有者输入。


12.如任一前述权利要求所述的方法,其中所述数据持有者的图形用户界面被实现为软件应用。


13.如任一前述权利要求所述的方法,其中数据产品相关参数包括:敏感数据属性的范围;查询参数,诸如:查询、查询敏感性、查询类型、查询集大小限制;异常值范围,在所述异常值范围外的值被抑制或截断;要执行的预处理变换,诸如矩形化或泛化参数;敏感数据集模式;对所述数据产品发布中所需的聚合统计数据的描述;所述数据产品发布中的统计数据的优先化;数据产品描述。


14.如任一前述权利要求所述的方法,其中所述数据产品发布呈API的形式。


15.如任一前述权利要求所述的方法,其中所述数据产品发布呈合成微数据文件的形式。


16.如任一前述权利要求所述的方法,其中所述数据产品发布包括以下一项或多项:聚合统计数据报告、信息图或仪表板或机器学习模型。


17.如任一前述权利要求所述的方法,其中自动评估隐私-效用权衡(PUT)。


18.如任一前述权利要求所述的方法,其中自动评估隐私-效用权衡(PUT),并且其中所述数据产品发布方法和系统生成描述预期数据产品发布的特性的报告或其他信息,所述特性与以下两项之间的平衡或权衡有关:(i)维持所述敏感数据集的隐私,包括攻击是否成功和/或失败;和(ii)使所述数据产品发布有用。


19.如任一前述权利要求所述的方法,其中自动评估隐私-效用权衡(PUT),并且随后自动生成用于提高所述PUT的推荐。


20.如权利要求19所述的方法,其中推荐包括修改以下一项或多项:所述数据产品中的表中的一个或多个的维数;所述数据产品的发布频率;要执行的统计泛化;抑制异常值;噪声分布值;或任何数据产品相关参数。


21.如任一前述权利要求所述的方法,其中所述方法被配置成生成所述数据产品发布的多个刷新或更新版本,并且被配置成显示所述数据产品发布的每个刷新或更新版本的所述隐私-效用权衡如何改变。


22.如任一前述权利要求所述的方法,其中所述方法被配置成生成所述数据产品发布的多个刷新或更新版本,并且被配置成显示所述数据产品发布的每个刷新或更新版本的所述隐私-效用权衡如何改变;
并且其中每个生成的数据产品发布考虑所述敏感数据集的任何更新版本。


23.如任一前述权利要求所述的方法,其中所述方法被配置成生成所述数据产品发布的多个刷新或更新版本,并且被配置成显示所述数据产品发布的每个刷新或更新版本的所述隐私-效用权衡如何改变;
并且其中对于每个生成的数据产品发布,通过考虑所述敏感数据集的任何更新版本、所述数据产品发布的任何更新版本或任何更新的用户可配置参数来自动更新保护参数。


24.如任一前述权利要求所述的方法,其中所述方法被配置成自动生成(i)所述隐私保护参数与(ii)采样误差两者的效应之间的比较。


25.如任一前述权利要求所述的方法,其中应用一个或多个隐私保护参数,并且所述方法被配置成将多种不同的攻击自动地应用于所述数据产品发布并且自动地确定所述敏感数据集的所述隐私是否被任何攻击损害。


26.如权利要求25所述的方法,其中攻击被存储在攻击库中。


27.如权利要求25-26所述的方法,其中所述隐私保护系统评估所述多种不同的攻击是否有可能成功。


28.如权利要求25-27所述的方法,其中每次攻击估计来自所述敏感数据集的任何敏感变量是否有被从所述数据产品发布确定的风险。


29.如权利要求25-28所述的方法,其中每次攻击输出被确定为就所述攻击来说易受攻击的所述敏感变量。


30.如权利要求25-29所述的方法,其中每次攻击输出被确定为易受攻击的每个敏感变量的猜测值。


31.如任一前述权利要求所述的方法,其中所述方法被配置成将多种不同的攻击应用于所述数据产品发布并且确定与击败所有攻击一致的基本上最高的ε。


32.如任一前述权利要求所述的方法,其中所述方法被配置成将多种不同的攻击自动应用于所述数据产品发布,并且其中所述隐私保护参数ε将根据攻击特性直接计算以获得所需的攻击成功。


33.如权利要求32所述的方法,其中攻击特性包括概率密度函数。


34.如任一前述权利要求所述的方法,其中应用隐私保护参数ε的值,并且所述方法被配置成针对所述ε值将多种不同的攻击应用于所述数据产品发布并且确定所述敏感数据集的所述隐私是否被任何攻击损害;然后确定与维持所述敏感数据集的所述隐私一致的所述基本上最高ε。


35.如权利要求34所述的方法,其中当应用于所述数据产品发布的所有所述多种不同的攻击有可能失败时,维持所述敏感数据集的所述隐私。


36.如任一前述权利要求所述的方法,其中迭代地应用隐私保护参数ε的值,并且所述方法被配置成对于每个ε值将多种不同的攻击自动应用于所述数据产品发布并且自动确定所述敏感数据集的所述隐私是否被任何攻击损害以及确定与维持所述敏感数据集的所述隐私一致的所述基本上最高ε。


37.如任一前述权利要求所述的方法,其中应用隐私保护参数ε的值,并且所述方法被配置成针对所述ε值将多种不同的攻击自动应用于所述数据产品发布并且自动确定所述敏感数据集的所述隐私是否被任何攻击损害,然后自动确定与维持所述敏感数据集的所述隐私一致的所述基本上最高ε。


38.如任一前述权利要求所述的方法,其中从所述确定的最高ε减去用户可配置的安全缓冲值,以增强所述敏感数据集的所述隐私。


39.如任一前述权利要求所述的方法,其中将用户可配置的安全缓冲值添加到所述确定的最高ε,以提高所述数据产品发布的所述效用。


40.如任一前述权利要求所述的方法,其中所述方法包括以下步骤:使用线性方程组对诸如和以及计数的统计数据进行编码,所述统计数据是所述数据集中的值的线性函数。


41.如权利要求40所述的方法,其中所述方法包括以下步骤:(i)接收线性查询规格;(ii)基于所述查询规格将所述敏感数据集中的数据聚合;以及(iii)用一组线性方程对所述聚合的数据进行编码。


42.如权利要求40-41所述的方法,其中所述方法包括以下步骤:使用查询集的大小将AVERAGE表编码为所述查询集的SUM表。


43.如权利要求40-42所述的方法,其中所述方法包括以下步骤:将COUNT表编码成线性方程组。


44.如权利要求43所述的方法,其中使用独热编码将敏感变量拆分为几个二进制变量。


45.如权利要求40-44所述的方法,其中所述敏感数据集含有多个敏感数据列,并且所述方法包括以下步骤:将所述多个敏感数据属性编码为单个敏感数据属性。


46.如权利要求45所述的方法,其中使用独热编码对敏感数据列中的所述变量的每种可能组合进行编码。


47.如权利要求45-46所述的方法,其中在执行所述独热编码步骤之前,将连续变量泛化。


48.如任一前述权利要求所述的方法,其中一个或多个隐私保护参数与失真度量一起自动生成,所述失真度量描述与所述隐私保护参数相关联的噪声添加。


49.如权利要求48所述的方法,其中失真度量包括所述噪声值分布的均方根误差、平均绝对误差或百分位数。


50.如任一前述权利要求所述的方法,其中应用一个或多个隐私保护参数,并且所述方法被配置成自动确定能够不受隐私保护的数据产品发布得出的结论是否仍能够从受隐私保护的数据产品发布得出。


51.如权利要求50所述的方法,其中所述方法包括将所述结论编码为程序的步骤。


52.如权利要求50-51所述的方法,其中所述方法包括对最大值结论进行编码的步骤。


53.如权利要求50-52所述的方法,其中所述方法包括对相关变量结论进行编码的步骤。


54.如权利要求50-53所述的方法,其中所述方法包括对组均值差结论进行编码的步骤。


55.如权利要求50-54所述的方法,其中所述方法包括对时间模式结论进行编码的步骤。


56.如任一前述权利要求所述的方法,其中用户定义的结论被输入,并且所述方法和系统自动确定所述数据产品发布是否保留所述用户定义的结论。


57.如任一前述权利要求所述的方法,其中自动访问和部署设法从所述数据产品发布恢复有关个人的信息的不同攻击的套件或集合。


58.如任一前述权利要求所述的方法,其中自动对差分攻击进行搜索。


59.如任一前述权利要求所述的方法,其中将差分攻击自动应用于所述数据产品发布;


60.如任一前述权利要求所述的方法,其中执行对聚合统计数据的迭代最小二乘攻击。


61.如任一前述权利要求所述的方法,其中使用正交性方程来执行对聚合统计数据的攻击。


62.如任一前述权利要求所述的方法,其中使用基于伪逆的方法来执行对聚合统计数据的攻击。


63.如任一前述权利要求所述的方法,其中其中利用使用奇异值分解的基于伪逆的方法来执行对聚合统计数据的攻击。


64.如任一前述权利要求所述的方法,其中通过以下操作来执行对聚合统计数据的攻击:使用查询的基础结构将大的统计数据方程组分解成能够单独地进行求解的子方程组,然后将解合并。


65.如任一前述权利要求所述的方法,其中利用使用QR分解的基于伪逆的攻击来执行对聚合统计数据的攻击。


66.如任一前述权利要求所述的方法,其中自动识别方差最小的差分攻击。


67.如任一前述权利要求所述的方法,其中使用秩揭示QR因式分解来自动识别方差最小的差分攻击。


68.如任一前述权利要求所述的方法,其中使用符号求解器来自动执行对聚合统计数据的攻击。


69.如任一前述权利要求所述的方法,其中计数表被表达为线性方程,并且通过自动解决受约束优化问题来实现对所述计数表的攻击。


70.如任一前述权利要求所述的方法,其中计数表被表达为线性方程,并且通过使用基于伪逆的攻击来实现对所述计数表的攻击。


71.如任一前述权利要求所述的方法,其中计数表被表达为线性方程,并且通过使用饱和行方法来实现对所述计数表的攻击。


72.如任一前述权利要求所述的方法,其中通过基于一致性检查的攻击来实现对所述计数表的攻击。


73.如任一前述权利要求所述的方法,其中计数表...

【专利技术属性】
技术研发人员:查尔斯·科德曼·卡博特基伦·弗朗索瓦·帕斯卡·吉纳马德杰森·德里克·麦克福尔皮埃尔安德烈·玛吉斯赫克托·佩吉本杰明·托马斯·皮克林特蕾莎·斯塔德勒乔安妮·塔伊苏珊娜·韦勒
申请(专利权)人:普威达有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1