多条流中top-k共生模式挖掘的差分隐私保护方法技术

技术编号:20917815 阅读:25 留言:0更新日期:2019-04-20 09:57
本发明专利技术公开一种多条流中top‑k共生模式挖掘的差分隐私保护方法,首先对原始事务数据进行截断,然后利用指数机制对图进行扰动,之后根据采样频率对后续窗口隐私预算进行分配和吸收,最后利用拉普拉斯机制对模式计数加噪。

Differential Privacy Protection Method for Top-k Symbiotic Pattern Mining in Multiple Streams

The invention discloses a differential privacy protection method for top_k symbiotic pattern mining in multiple streams. Firstly, the original transaction data is truncated, then the graph is disturbed by an exponential mechanism, and then the privacy budget of subsequent windows is allocated and absorbed according to the sampling frequency. Finally, the pattern counting is noised by Laplace mechanism.

【技术实现步骤摘要】
多条流中top-k共生模式挖掘的差分隐私保护方法
本专利技术涉及数据隐私保护
,具体涉及一种多条流中top-k共生模式挖掘的差分隐私保护方法。
技术介绍
随着大数据时代和物联网信息时代的到来,导致数字信息爆炸性增长,如何从数据中挖掘有用的信息并保障他人隐私不会被侵犯成为当前研究的热点。从数据流中挖掘频繁模式有着广泛的应用,如生物信息学数据分析、网络流量分析和web使用分析等多种在线应用。例如,在社交网络服务(SNS)中,Twitter和Facebook,SNS用户可以看成为流,连续发布推文的每个推特用户也可以被视为流,可以看到一些关键字可能经常出现在多个用户的推文中。我们把这种模式称为共生模式,它是一种特殊的闭合频繁模式。目前闭合频繁模式是研究较多的一种模式,它是频繁模式的一种简洁表示。2017年,Daichi等人提出了一种多条流中top-k共生模式挖掘的新方法,该方法以牺牲内存来提升数据挖掘的时间,但是该方法并没有考虑到用户的隐私问题,当事务数据流中含有个人的敏感信息时(如顾客的购买记录,用户的行为记录等),敌手可以以很大概率推测出个人的信息,从而导致个人敏感信息受到威胁。
技术实现思路
本专利技术所要解决的是直接发布多条流中top-k共生模式所导致的隐私泄露的问题,提供一种多条流中top-k共生模式挖掘的差分隐私保护方法。为解决上述问题,本专利技术是通过以下技术方案实现的:多条流中top-k共生模式挖掘的差分隐私保护方法,具体包括如下步骤:步骤1、利用长度限制Lf对当前时刻的原始数据中长度大于Lf的事务数据进行截断,并利用所保留下来事务数据建立当前时刻的共生模式图;步骤2、利用指数机制对当前时刻的共生模式图的边进行扰动,得到当前时刻被扰动后的共生模式图;步骤3、计算当前时刻被扰动后的共生模式图中所有项的支持度,并对这些项的支持度进行降序排列后,将排在第k位的项的支持度作为当前闭合频繁模式阈值;步骤4、依次从当前时刻被扰动后的共生模式图中选出项作为当前项;对于每个当前项,不断计算当前项的每一个超集的支持度,并将超集的支持度与当前闭合频繁模式阈值进行比较:若超集的支持度大于当前闭合频繁模式阈值,且该超集为闭合频繁模式,则将当前闭合频繁模式阈值更新为该超集的支持度;否则,保持当前闭合频繁模式阈值不变,直到当前项的所有超集计算完毕为止;步骤5、将当前时刻被扰动后的共生模式图的所有项及其闭合频繁模式的超集的支持度进行降序排列,并从中选出支持度排在前k位的项和超集作为答案,并将这k个共同组成当前时刻的候选集;步骤6、用拉普拉斯机制对候选集进行加噪,得到当前时刻隐私发布版本,并将其发布;步骤7、随着时间的推移,将上一时刻的候选集中的k个答案的支持度进行降序排列,并将排在第k位的支持度作为当前闭合频繁模式阈值,窗口滑动,并重复步骤1、2、4、5和6;上述Lf和k均为设定值。上述超集为含有该含当前项的项集合。上述步骤4,需要根据给定的排序规则对当前时刻被扰动后的共生模式图中的项进行排序,并依据该排序依次选取项作为当前项。上述给定的排序规则是:先基于项的项字典字母顺序进行排序,再基于项的生成时间先后顺序进行排序。与现有技术相比,本专利技术具有如下特点:1、在窗口内部,本专利技术对事物进行截断,并利用指数机制对共生模式图(CP-Graph)进行扰动,选出top-k个共生模式候选集,对候选集里的k个模式的计数用拉普拉斯机制进行加噪。2、为了合理分配隐私预算,本专利技术在窗口滑动时对新来的数据点进行采样,没被采样的数据点发布近似值,被采样的数据点根据真实值与近似值的差值来决定发布噪音值还是近似值。附图说明图1为第一时刻对应的数据建图过程;图2为第二时刻对应的数据建图过程;图3为第三时刻对应的数据建图过程;图4为第四时刻对应的数据建图过程。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实例,并参照附图,对本专利技术进一步详细说明。由于多条流中top-k共生模式的挖掘结果未经过隐私处理,直接将结果进行发布会导致个人信息的泄露,本专利技术提出一种多条流中top-k共生模式挖掘的差分隐私保护方法,其具体步骤如下:步骤1、利用长度限制Lf对当前时刻的原始数据中长度大于Lf的事务数据进行截断,并利用所保留下来事务数据建立当前时刻的共生模式图。步骤2、利用指数机制对当前时刻的共生模式图的边进行扰动,得到当前时刻被扰动后的共生模式图。步骤3、计算当前时刻被扰动后的共生模式图中所有项的支持度,并对这些项的支持度进行降序排列后,将排在第k位的项的支持度作为当前闭合频繁模式阈值。步骤4、依次从当前时刻被扰动后的共生模式图中选出项(相当于图的顶点)作为当前项。在本专利技术中,可以采用随机选取的方式从当前时刻扰动后的共生模式图中选出一个项作为当前项,但这样计算速度会减慢。为此,最好先给定一个排序规则,并根据给定的排序规则对当前时刻被扰动后的共生模式图中的项进行排序,并依据该排序依次选取项作为当前项。在本专利技术优选实施例中,给定的排序规则是:先基于项的项字典字母顺序进行排序,再基于项的生成时间先后顺序进行排序。对于每个当前项,执行如下操作:不断计算当前项的每一个超集(即含有该含当前项的项集合)的支持度,并将超集的支持度与当前闭合频繁模式阈值进行比较:若超集的支持度大于当前闭合频繁模式阈值,且该超集为闭合频繁模式,则将当前闭合频繁模式阈值更新为该超集的支持度。否则,保持当前闭合频繁模式阈值不变,直到当前项的所有超集计算完毕为止。步骤5、将当前时刻被扰动后的共生模式图的所有项及其闭合频繁模式的超集的支持度进行降序排列,并从中选出支持度排在前k位的项和超集作为答案,并将这k个共同组成当前时刻的候选集。步骤6、用拉普拉斯机制对候选集进行加噪,得到当前时刻隐私发布版本,并将其发布。步骤7、随着时间的推移,将上一时刻的候选集中的k个答案的支持度进行降序排列,并将排在第k位的支持度作为当前闭合频繁模式阈值,窗口滑动,并重复步骤1、2、4、5和6。上述Lf和k均为设定值。下面通过一个具体的实例,对本专利技术进行说明:(1)图的建立与事务截断。TransactionStreamObjectsetGenerationtimet1S1{a,b,x,y}C't2S2{d,x,y}C'+1t3S3{a,c,d,x,y}C'+2t4S4{a,b,d,y}C'+3t5S1{a,y,z}C'+4t6S5{d,y}C'+4表1原始数据表表1为数据的原始形式,每条事务由一个事务编号(Transaction)、流编号(Stream)、对象集(Objectset)、产生时间(Generationtime)组成。假设每个窗口包含四个时间点的事物。根据表1的前四个时间点(C'到C'+3)构建一个CP-Graph,设采样频率si为2,即每隔一个点进行采样,详解如下:对象集里面的每个项o均被抽象表示成项vo,每个项vo由三个部分组成,即元组vo.s=<j,c>、逻辑值vo.f、倒排索引vo.I。vo.s=<j,c>由流编号j和产生的时间c组成,用于计算项的计数,项的计数为不同流编号的个数;vo.f是由0或1构成的逻辑值,用来监控某个项是否随着时间的变化而发生改变,如果某个项v本文档来自技高网...

【技术保护点】
1.多条流中top‑k共生模式挖掘的差分隐私保护方法,其特征是,具体包括如下步骤:步骤1、利用长度限制Lf对当前时刻的原始数据中长度大于Lf的事务数据进行截断,并利用所保留下来事务数据建立当前时刻的共生模式图;步骤2、利用指数机制对当前时刻的共生模式图的边进行扰动,得到当前时刻被扰动后的共生模式图;步骤3、计算当前时刻被扰动后的共生模式图中所有项的支持度,并对这些项的支持度进行降序排列后,将排在第k位的项的支持度作为当前闭合频繁模式阈值;步骤4、依次从当前时刻被扰动后的共生模式图中选出项作为当前项;对于每个当前项,不断计算当前项的每一个超集的支持度,并将超集的支持度与当前闭合频繁模式阈值进行比较:若超集的支持度大于当前闭合频繁模式阈值,且该超集为闭合频繁模式,则将当前闭合频繁模式阈值更新为该超集的支持度;否则,保持当前闭合频繁模式阈值不变,直到当前项的所有超集计算完毕为止;步骤5、将当前时刻被扰动后的共生模式图的所有项及其闭合频繁模式的超集的支持度进行降序排列,并从中选出支持度排在前k位的项和超集作为答案,并将这k个共同组成当前时刻的候选集;步骤6、用拉普拉斯机制对候选集进行加噪,得到当前时刻隐私发布版本,并将其发布;步骤7、随着时间的推移,将上一时刻的候选集中的k个答案的支持度进行降序排列,并将排在第k位的支持度作为当前闭合频繁模式阈值,窗口滑动,并重复步骤1、2、4、5和6;上述Lf和k均为设定值。...

【技术特征摘要】
1.多条流中top-k共生模式挖掘的差分隐私保护方法,其特征是,具体包括如下步骤:步骤1、利用长度限制Lf对当前时刻的原始数据中长度大于Lf的事务数据进行截断,并利用所保留下来事务数据建立当前时刻的共生模式图;步骤2、利用指数机制对当前时刻的共生模式图的边进行扰动,得到当前时刻被扰动后的共生模式图;步骤3、计算当前时刻被扰动后的共生模式图中所有项的支持度,并对这些项的支持度进行降序排列后,将排在第k位的项的支持度作为当前闭合频繁模式阈值;步骤4、依次从当前时刻被扰动后的共生模式图中选出项作为当前项;对于每个当前项,不断计算当前项的每一个超集的支持度,并将超集的支持度与当前闭合频繁模式阈值进行比较:若超集的支持度大于当前闭合频繁模式阈值,且该超集为闭合频繁模式,则将当前闭合频繁模式阈值更新为该超集的支持度;否则,保持当前闭合频繁模式阈值不变,直到当前项的所有超集计算完毕为止;步骤5、将当前时刻被扰动后的共生模式图的所有项及其闭合频繁模式的...

【专利技术属性】
技术研发人员:王金艳方仕健刘陈李先贤
申请(专利权)人:广西师范大学
类型:发明
国别省市:广西,45

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1