当前位置: 首页 > 专利查询>武汉大学专利>正文

基于差分隐私的相关性时间序列发布方法及系统技术方案

技术编号:14677029 阅读:132 留言:0更新日期:2017-02-19 03:13
本发明专利技术提供一种基于差分隐私的相关性时间序列发布方法及系统,包括通过预设长度的观测窗口将待发布原始序列分段,并将观测窗口内的子序列段作为短时平稳过程处理;首先计算窗口内子序列的自相关函数,然后生成与子序列自相关函数一致的相关性拉普拉斯噪声序列,最后将噪声叠加到子序列中,待原始序列处理完毕后,发布含有噪声的序列。本发明专利技术中的滑动窗口机制和相关性拉普拉斯噪声机制的运用,解决了现有利用差分隐私机制发布相关性时间序列的方法中,面临的实际有效的隐私保护强度无法达到预设值及数据可用性较低的问题。

【技术实现步骤摘要】

本专利技术涉及数据挖掘和隐私保护领域,更具体地,涉及一种基于差分隐私的相关性时间序列发布方法及系统,用于解决现有利用差分隐私机制发布相关性时间序列的方法中,面临的实际有效的隐私保护强度无法达到预设值及数据可用性较低的问题。
技术介绍
随着社会信息化的发展和移动终端设备的日益普及,产生了大量的时间序列数据(如医疗、金融、交通数据等),对于信息咨询组织、商业机构以及政府决策部门来说,为了对时间序列进行分析挖掘以获得有价值的信息,要求数据搜集者(个人、企业、政府等)将采集到的时间序列数据进行发布和共享。但时间序列数据中可能包含用户的敏感信息,数据搜集者出于隐私泄露的担忧不愿发布自身的时间序列数据,因此,如何在发布时间序列数据的同时保证用户的隐私不被泄露,是时间序列发布亟待解决的问题。在目前的隐私保护方法中,能够较好地平衡数据安全性和可用性的是Dwork于2006年提出的差分隐私保护框架,它具有严格的数学公理化模型,并对攻击者的背景知识没有限制,是一种从数学上严格定义保护强度和数据可用性的隐私保护手段,在保证隐私安全性的同时能够较好的支持数据分析挖掘类应用,近年来成为隐私保护研究的热门领域。差分隐私最初是为了解决由相互独立的数据构成的静态数据集的隐私泄露问题而提出的,通过对待保护数据加入独立的噪声来保护隐私。因此,最初基于差分隐私的时间序列发布算法,也都是将时间序列作为独立序列来处理,通过对待发布时间序列叠加独立的噪声序列来保护隐私。但实际应用产生的绝大多数时间序列的数据之间是非独立的(具有相关性),这会导致最初的这些算法加入的独立噪声序列的相关特性与待发布时间序列的相关特性不同,那么攻击者就可以利用滤波等求精手段过滤掉一部分噪声,而噪声水平的降低会使得实际有效的隐私保护强度低于预设值。因此,最初的这些差分隐私保护算法不能直接应用于相关性时间序列发布。为了弥补上述缺陷,使差分隐私机制适用于相关性时间序列的发布,目前的研究者们主要从相关性建模和数据变换两个角度进行改进。相关性建模方面,当前主要从建立相关性处理模型出发,提出利用马尔可夫模型、贝叶斯模型、相关系数矩阵模型等表示序列的相关性,将模型中的参数作为权重计算差分隐私的全局敏感度函数,并根据全局敏感度函数和设定的隐私保护强度设计噪声;基于数据变换的方式中,主要是将相关性序列变换为独立序列进行处理,如朱天庆等提出了DLPA机制,利用傅立叶变换将相关性时间序列变换为独立的序列,在变换系数中加入噪声并进行反变换,最后发布反变换后的时间序列。在这两类方法中,相关性建模的方式能够较为准确的描述数据之间的相关性,但差分隐私的噪声大小与全局敏感度函数正相关,将相关系数作为权重计算全局敏感度函数会导致噪声增大,从而导致数据可用性降低;而数据变换的方式在相同隐私保护强度下,虽然加入的噪声较少,可以保证较高的数据可用性,但加入的噪声序列与待发布序列的相关特性不一致,仍然面临实际有效的隐私保护强度无法达到预设值的问题。因此,现有的方法并没有彻底解决相关性时间序列的差分隐私发布问题,仍然面临发布序列的数据可用性较低及实际有效的隐私保护强度无法达到预设值的问题。
技术实现思路
针对现有方法的缺陷和不足,本专利技术提出一种相关性时间序列的差分隐私发布技术方案,通过构造与待发布原始序列相关性一致的噪声序列,叠加到原始序列中,可以防止攻击者利用相关性背景知识发起的攻击,确保设定的隐私保护强度在实际当中是有效的,同时不会增加噪声大小,从而解决利用差分隐私保护机制进行相关性时间序列发布时,面临的实际有效的隐私保护强度无法达到预设值及数据可用性较低的问题。本专利技术技术方案提供一种基于差分隐私的相关性时间序列发布方法,包括以下步骤,步骤S1,数据预处理,包括读入待保护的原始时间序列X,总长度记为n;利用预设长度l的观测窗口从原始时间序列X的第i个时刻开始提取数据,得到当前待处理的时间序列,记为W,W={xi,xi+1,…,xi+l-1本文档来自技高网
...
基于差分隐私的相关性时间序列发布方法及系统

【技术保护点】
一种基于差分隐私的相关性时间序列发布方法,其特征在于:包括以下步骤,步骤S1,数据预处理,包括读入待保护的原始时间序列X,总长度记为n;利用预设长度l的观测窗口从原始时间序列X的第i个时刻开始提取数据,得到当前待处理的时间序列,记为W,W={xi,xi+1,…,xi+l‑1},数据xi∈X;令i=1;步骤S2,自相关函数计算,包括计算观测窗口内时间序列W的自相关函数如下式,其中,为观测窗口序列中原始数据的均值;步骤S3,噪声生成,包括生成长度为l,自相关函数为的拉普拉斯噪声序列Z;包括以下子步骤,步骤S3‑1,设定滤波器的冲激响应为其中,N0是生成拉普拉斯噪声所需的高斯白噪声的功率谱密度;步骤S3‑2,生成长度为l,功率谱密度为N0的4个高斯白噪声序列G1、G2、G3和G4,其中高斯白噪声的分布满足步骤S3‑3,将高斯白噪声序列G1、G2、G3和G4通过冲激响应为h(n)的滤波器,得到4个自相关函数为RG′(n)的相关性高斯噪声序列G′1、G′2、G′3和G′4,其中步骤S3‑4,计算得到特定相关性的拉普拉斯噪声序列Z,Z的自相关函数步骤S4,噪声加入,包括根据自相关函数为的拉普拉斯噪声序列Z中 的噪音数据,对观测窗口内未处理的数据叠加相应的噪音数据,计算W′=W+Z;步骤S5,迭代处理,包括向后滑动观测窗口,依次从原始时间序列X取下一时间序列,作为新的当前待处理的时间序列W,返回步骤S2,对观测窗口内未处理的数据加入噪声,得到含有噪声的子序列;直至待保护时间序列处理完毕,进入步骤S6;步骤S6,数据发布,包括发布经过加噪处理后的待保护时间序列。...

【技术特征摘要】
1.一种基于差分隐私的相关性时间序列发布方法,其特征在于:包括以下步骤,步骤S1,数据预处理,包括读入待保护的原始时间序列X,总长度记为n...

【专利技术属性】
技术研发人员:徐正全王豪王涛熊文君
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1