The invention discloses a set-valued data and social network data released by multi-source privacy protection method, for non sensitive values and set the value of the data against social network data, the first data packet in the generalization of set value privacy requirements can meet the requirements of each group, to avoid excessive global generalization, then based on the generalization of the set-valued data packet, the data corresponding to social networks within the group of anonymous, anonymous in the community before examination of the social network data, anonymous as disturbance within the community, this time to avoid the anonymous community changed greatly. The invention can be applied to simultaneous release of multi-source data.
【技术实现步骤摘要】
集值数据和社会网络数据联合发布的多源隐私保护方法
本专利技术涉及数据隐私发布
,具体涉及一种集值数据和社会网络数据联合发布的多源隐私保护方法。
技术介绍
随着互联网的飞速发展,人们在网上进行各种各样的活动,随之产生了社交网络数据和集值数据。例如在QQ、微信、Facebook等社交应用上进行交友、联系朋友同事等,在亚马孙、淘宝、京东等电商平台上进行购物行为。为了更深入挖掘这些数据的价值,数据挖掘者和数据分析人员会对数据进行分析。然而,这些社会网络数据和集值数据直接发布会泄露用户信息,这给用户带来潜在的危害。目前,在社交网络数据和集值数据的隐私保护中各自都有一些研究,大概有以下几方面:对于集值数据的隐私保护,最初采用的是简单匿名方法,也就是抑制或泛化能唯一确定用户的标识符,如姓名、ID号等,这样简单匿名使得攻击者无法直观定位用户。接着在简单匿名的基础上,依赖泛化层次树,提出了k匿名,使得数据集中的每一条记录出现次数都不少于k。之后借鉴k匿名思想,研究发展出km匿名,也就是对于任意m个项目集,数据集中至少包含k条记录,称之满足km匿名。除此之外,还有(k,l)(m ...
【技术保护点】
集值数据和社会网络数据联合发布的多源隐私保护方法,其特征是,包括如下步骤:步骤1、去掉集值数据和社会网络数据的标识符,并对社会网络数据进行进行社区检查,得到社区划分;步骤2、对于根据集值数据的非敏感值,构建一个泛化树;并根据泛化树对集值数据进行分组,使得每个组内的数据集都满足隐私要求;步骤3、先将社会网络数据节点与集值数据ID对应,根据步骤2所得的集值数据的分组,对社交网络数据的节点进行对应分组;再对社交网络数据进行组内匿名处理。
【技术特征摘要】
1.集值数据和社会网络数据联合发布的多源隐私保护方法,其特征是,包括如下步骤:步骤1、去掉集值数据和社会网络数据的标识符,并对社会网络数据进行进行社区检查,得到社区划分;步骤2、对于根据集值数据的非敏感值,构建一个泛化树;并根据泛化树对集值数据进行分组,使得每个组内的数据集都满足隐私要求;步骤3、先将社会网络数据节点与集值数据ID对应,根据步骤2所得的集值数据的分组,对社交网络数据的节点进行对应分组;再对社交网络数据进行组内匿名处理。2.根据权利要求1所述的集值数据和社会网络数据联合发布的多源隐私保护方法,其特征是,步骤1中,采用GN算法对社会网络数据进行进行社区检查。3.根据权利要求1所述的集值数据和社会网络数据联合发布的多源隐私保护方法,其特征是,步骤2的具体步骤为:步骤2.1、根据集值数据的非敏感值制定泛化树,并构造分组层次树,将所有非敏感值泛化到最高层次,敏感值则不做任何操作;步骤2.2、检查当前集值数据的各个分组是否满足ρ-uncertainty隐私要求;如果分组满足ρ-uncertainty隐私要求,则直接对该分组进行分组细化;如果分组不满足ρ-uncertainty隐私要求,在该分组中随机选择某个项目删除,删除后再更新所有关联规则的置信度;如果数据集中存在小于等于ρ的关联规则,则转至步骤2.3;如果数据集中存在大于ρ的关联规则,则继续在该分组中随机选择某个项目删除,直到整个数据集中不再有置信度大于ρ的关联规则;步骤2.3、计算当前集值数据的细化信息损...
【专利技术属性】
技术研发人员:李先贤,林汕,刘鹏,王如希,
申请(专利权)人:广西师范大学,
类型:发明
国别省市:广西,45
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。