星型连接工作负载查询隐私保护方法、系统、设备及介质技术方案

技术编号:38246309 阅读:11 留言:0更新日期:2023-07-25 18:06
一种星型连接工作负载查询隐私保护方法、系统、设备及介质,隐私保护方法包括以下步骤:将面向数据仓库的多个星型连接查询构成星型连接工作负载查询集;将星型连接工作负载查询集按查询属性进行分块;对分块后星型连接工作负载查询集的每一块分别进行降维,构成单个属性查询策略;利用差分隐私机制分别对每一个属性查询策略进行加噪;推断对每一个属性查询策略加噪的加噪查询;将每一个加噪查询合并聚合,得到加噪的星型连接工作负载查询集,使用加噪的星型连接工作负载查询集查询数据仓库,得到的查询结果发送给不受信任的数据分析者。本发明专利技术能够最大程度探索查询区间的相关性,降低连接查询操作的全局敏感度,有效加强扩展性,并减少计算开销。并减少计算开销。并减少计算开销。

【技术实现步骤摘要】
星型连接工作负载查询隐私保护方法、系统、设备及介质


[0001]本专利技术属于数据分析隐私保护
,具体涉及一种星型连接工作负载查询隐私保护方法、系统、设备及介质。

技术介绍

[0002]近些年来,随着数据的“井喷式”产生,在数字经济时代,数据成为新的关键生产要素,数据的意义和价值不在于数据本身,而在于数据的分析结果可以成为企业经营决策的新驱动。企业作为服务方,通过收集数据分析数据提高服务质量,改善用户使用体验。数据分析者会对可信服务器发出查询请求,服务器进行响应,返回查询结果。因此,不可信的数据分析者极有可能从多个查询结果推断出用户的隐私信息,甚至挖掘出数据中深层蕴含的用户信息,存在隐私泄露的风险。隐私泄露的主要原因在于服务器会直接根据数据分析者的查询请求,返回其完全真实的结果。为了解决隐私泄露的问题,差分隐私模型不仅可以通过对结果进行加噪来避免不可信数据分析者的推断,还可以无视分析者的背景知识。而星型连接查询作为关系数据库的典型应用之一,其差分隐私的相关研究工作还比较少。
[0003]差分隐私应用于星型连接工作负载查询的主要问题在于,如何在保护用户隐私的情况下响应星型连接工作负载查询。然而,星型连接查询对数据高度敏感,一条数据的增加或删除对星形连接查询产生的影响结果与维度表数目有关,为O(N^(n

1)),中N为每个维度的阈值,n表示维度表的个数(参考文献[1])。参考文献[1]的方案提出对于n

way连接查询,其敏感度的大小随n的变化呈现指数级增长,因此通过一种局部敏感度的变体降低其大小,但星型连接查询是具有大量外键约束的连接查询,不能直接应用参考文献1的方案。在星型连接查询中,一个事实表和多个维度表相连接,会涉及到多个维度表,而工作负载查询通常由大量的单个星型连接查询构成,因此,星型连接查询下工作负载查询的差分隐私方案往往存在全局敏感度高,噪声大的问题,由此导致数据的可用性往往较低。
[0004]针对工作负载查询,目前的差分隐私方案针对全局敏感度过大的问题,一般会采取矩阵机制,先根据查询矩阵进行降维构成查询策略,有效降低查询之间的相关性,查询策略的敏感度一般为1,再对查询策略的响应结果进行加噪,并推断出原查询响应的加噪结果(参考文献[2])。参考文献[2]的方案提出利用矩阵机制优化差分隐私下的线性计数查询集。针对星型连接查询全局敏感度过大的问题,当前,差分隐私方案通常采用求取局部敏感度的方法(例如,局部敏感度、平滑敏感度、弹性敏感度和残差敏感等)作为近似全局敏感度的替代方案。然而,这些计算方式仍存在一些缺陷:局部敏感度依赖于数据,因此用于校验噪声操作时无法满足差分隐私条件;而平滑敏感度、弹性敏感度和残差敏感度是对局部敏感度的上限值进行计算,尽管计算代价较小,但其数值较大,其中平滑敏感度数值最小但其计算代价高。因此,这些近似代替全局敏感度的方式并不能直接应用在星型连接工作负载查询上,可能需要探索更适用于星型连接工作负载查询的差分隐私方法来解决这个问题。
[0005]同时,星型连接工作负载查询会涉及到多个维度表,随着维度表的扩展,敏感度也会增大,噪声随之增加,查询结果的可用性快速下降。此外,对于星型连接查询的差分隐私
方案一般基于先连接再查询最后添加噪声的过程,维度表的增加会导致高昂的计算开销。但是以上方案仅考虑到敏感度的计算方式并不能解决维度表扩展所引起的问题。
[0006][1] Wei Dong and KeYi. A nearly instance

optimal differentially private mechanism for conjunctive queries. In PODS 2022.[2] Hay, Michael, McGregor, et al. The matrix mechanism: optimizing linear counting queries under differential privacy[J]. Vldb Journal the International Journal of Very Large Data Bases, 2015.

技术实现思路

本专利技术的目的在于针对上述现有技术中查询结果可用性低、扩展性差以及计算开销巨大的问题,提供一种星型连接工作负载查询隐私保护方法、系统、设备及介质,最大程度探索查询区间的相关性,降低连接查询操作的全局敏感度,有效加强扩展性,并减少计算开销。
[0007]为了实现上述目的,本专利技术有如下的技术方案:第一方面,提供一种星型连接工作负载查询隐私保护方法,包括以下步骤:将面向数据仓库的多个星型连接查询构成星型连接工作负载查询集;将星型连接工作负载查询集按查询属性进行分块;对分块后星型连接工作负载查询集的每一块分别进行降维,构成单个属性查询策略;利用差分隐私机制分别对每一个属性查询策略进行加噪;推断对每一个属性查询策略加噪的加噪查询;将每一个加噪查询合并聚合,得到加噪的星型连接工作负载查询集,使用加噪的星型连接工作负载查询集查询数据仓库,得到的查询结果发送给不受信任的数据分析者。
[0008]作为一种优选方案,所述数据仓库为,包含个维度表和一个事实表,每一个维度表均与事实表相连接,整体呈现星型连接模式;服务器接收到的个星型连接查询组成星型连接工作负载查询集;星型连接查询的筛选条件针对各种维度,星型连接查询用查询的谓词表示为,其中任一查询的谓词表示在维度表的查询区间,为查询范围下限,为查询范围上限。
[0009]作为一种优选方案,所述将星型连接工作负载查询集按查询属性进行分块的步骤中,星型连接工作负载查询集W的每个单元为第个星型连接查询在维度表上的查询范围,星型连接工作负载查询集,式中表示星型连接查询在维度表上所涉及的查询区间;将星型连接工作负载查询集W按数据仓库的维度表进行拆分,得到个分块,分别为,第个分块表示为,则表示第个查询在维度表上的查询区间。
[0010]作为一种优选方案,所述对分块后星型连接工作负载查询集的每一块分别进行降维的步骤中,通过找到一个查询策略,使得存在一个解矩阵,分块中的所有查询区间都可以用查询策略中查询区间的线性组合进行表示:,。
[0011]作为一种优选方案,所述利用差分隐私机制分别对每一个属性查询策略进行加噪
的步骤,对查询策略添加拉普拉斯噪声,式中为查询策略的敏感度,为隐私预算,第个分块的第个查询的维度区间为,,扰动后的查询策略中第个加噪查询区间为:。
[0012]作为一种优选方案,所述推断对每一个属性查询策略加噪的加噪查询时,通过扰动后的查询策略与解矩阵计算得到星型连接工作负载查询集W在维度表上的加噪查询。
[0013]作为一种优选方案,所述将每一个加噪查询合并聚合的步骤中,将星型连接工作负载查询集W在维度表上的加噪查询合并聚合,得到加噪的星型连接工作负载查询集,使用加噪的星型连接工作负载查询集查询数据仓库,得到查询结果,发送给不受信任的数据分析者。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种星型连接工作负载查询隐私保护方法,其特征在于,包括以下步骤:将面向数据仓库的多个星型连接查询构成星型连接工作负载查询集;将星型连接工作负载查询集按查询属性进行分块;对分块后星型连接工作负载查询集的每一块分别进行降维,构成单个属性查询策略;利用差分隐私机制分别对每一个属性查询策略进行加噪;推断对每一个属性查询策略加噪的加噪查询;将每一个加噪查询合并聚合,得到加噪的星型连接工作负载查询集,使用加噪的星型连接工作负载查询集查询数据仓库,得到的查询结果发送给不受信任的数据分析者。2.根据权利要求1所述的星型连接工作负载查询隐私保护方法,其特征在于,所述数据仓库为,包含个维度表和一个事实表,每一个维度表均与事实表相连接,整体呈现星型连接模式;服务器接收到的个星型连接查询组成星型连接工作负载查询集;星型连接查询的筛选条件针对各种维度,星型连接查询用查询的谓词表示为,其中任一查询的谓词表示在维度表的查询区间,为查询范围下限,为查询范围上限。3.根据权利要求2所述的星型连接工作负载查询隐私保护方法,其特征在于,所述将星型连接工作负载查询集按查询属性进行分块的步骤中,星型连接工作负载查询集W的每个单元为第个星型连接查询在维度表上的查询范围,星型连接工作负载查询集,式中表示星型连接查询在维度表上所涉及的查询区间;将星型连接工作负载查询集W按数据仓库的维度表进行拆分,得到个分块,分别为,第个分块表示为,则表示第个查询在维度表上的查询区间。4.根据权利要求3所述的星型连接工作负载查询隐私保护方法,其特征在于,所述对分块后星型连接工作负载查询集的每一块分别进行降维的步骤中,通过找到一个查询策略,使得存在一个解矩阵,分块中的所有查询区间都可以用查询策略中查询区间的线性组合进行表示:,。5.根据权利要求4所述的星型连接工作负载查询隐私保护方法,其特征在于,所述利用差分隐私机制分别对每一个属性查询策略进行加噪的步骤,对查询策...

【专利技术属性】
技术研发人员:张亮曹晓光李娇娇宋江龙吴世山李艾功赵力文
申请(专利权)人:杭州世平信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1