一种发布数据的生成方法、装置和服务器制造方法及图纸

技术编号:20242753 阅读:34 留言:0更新日期:2019-01-29 23:27
本发明专利技术实施例公开了一种发布数据的生成方法,该方法包括:按照预设的统计类别对原始数据进行分类统计,用分类统计得到的每个统计类别对应的统计数值形成统计数据;为统计数据选定差分隐私算法;根据选定的差分隐私算法的隐私预算,对统计数据进行排序,对排序后的统计数据进行合并,对合并后的统计数据进行加噪,生成发布数据。本发明专利技术实施例还同时公开了一种发布数据的生成装置和服务器。

【技术实现步骤摘要】
一种发布数据的生成方法、装置和服务器
本专利技术涉及大数据平台的数据发布,尤其涉及一种发布数据的生成方法、装置和服务器。
技术介绍
近年来,大数据的蓬勃发展孕育了新业态,激发了新活力,创造了新价值,为了加快建成统一运营、统一管控的企业级大数据平台和运营体系,实现大数据变现,以此支撑开拓市场,需要着力集中资源搭建统一的大数据分析平台,然而,大数据的运营存在着安全风险,例如,对于运营商而言,大数据平台中的数据会涉及客户、业务使用、财政收入、资源等企业运营中的各个方面,同时也含有大量客户信息、话单账单等涉及客户隐私的敏感数据,如果这些敏感数据一旦遭到泄露,一方面会对客户的人身安全、经济安全产生巨大的威胁,另一方面也会引起大规模的客户投诉,这样,会导致巨大的经济损失及名誉损失。大数据平台的数据服务层主要负责对平台中的数据进行统一封装和对外发布,但是容易遭到黑客的攻击,敏感数据泄露的风险更大,为了降低大数据平台中敏感数据泄露的风险,在数据服务层对信息的共享和发布中,强调要最大化平衡敏感数据的保密性和可用性,为了提高敏感数据的保密性和可用性,现有的是对数据服务层的元数据进行数据匿名化处理,采用基于限制发布的技术来保护敏感数据的隐私性,其中,最核心的算法为k匿名(k-anonymity)算法,通过限制发布对大数据进行脱敏处理,k-anonymity算法要求发布数据中存在至少为k个在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私。k-anonymity算法通过参数k指定用户可承受的最大信息泄露风险,k-anonymity算法简单易懂,便于实现,能够在一定程度上保护用户隐私信息,虽然现有的k-anonymity算法有以上的优点,但当攻击者拥有一定的背景知识,用户信息容易遭受背景知识的攻击,k-anonymity算法无法有效保证用户信息的隐私性;当共享的数据为统计数据时,统计数据本身为敏感数据,采用k-anonymity算法并不能保证统计数据的隐私性,采用k-anonymity算法对统计数据进行过度泛化处理,会带来许多不必要的信息损失,降低统计数据的可用性;可见,现有的采用k-anonymity算法确定出的发布数据存在隐私泄露风险较高且可用性较低的技术问题。
技术实现思路
有鉴于此,本专利技术实施例期望提供一种发布数据的生成方法、装置和服务器,以解决现有的采用k-anonymity算法确定出的发布数据存在隐私泄露的风险较高的技术问题,降低了发布数据的隐私泄露风险,同时增强了发布数据的可用性。为达到上述目的,本专利技术的技术方案是这样实现的:第一方面,本专利技术实施例提供一种发布数据的生成方法,包括:按照预设的统计类别对原始数据进行分类统计,用分类统计得到的每个统计类别对应的统计数值形成统计数据;为所述统计数据选定差分隐私算法;根据选定的差分隐私算法的隐私预算,对所述统计数据进行排序,对排序后的统计数据进行合并,对合并后的统计数据进行加噪,生成发布数据。进一步地,所述根据选定的差分隐私算法的隐私预算,对所述统计数据进行排序,对排序后的统计数据进行合并,对合并后的统计数据进行加噪,生成发布数据,包括:将选定的差分隐私算法的隐私预算进行拆分,得到第一部分差分隐私预算和第二部分差分隐私预算;根据选定的差分隐私算法的隐私预算,对所述统计数据进行排序,得到所述排序后的统计数据;根据所述第一部分差分隐私预算,对所述排序后的统计数据进行合并,得到所述合并后的统计数据;根据所述第二部分差分隐私预算,对所述合并后的统计数据进行加噪,生成所述发布数据。进一步地,所述根据选定的差分隐私算法的隐私预算,对所述统计数据进行排序,得到所述排序后的统计数据,包括:根据选定的差分隐私算法的隐私预算,确定出所述统计数据中各统计数值的噪声;根据所述各统计数值的噪声,对所述统计数据中各统计数值进行排序,得到所述排序后的统计数据。进一步地,所述根据所述各统计数值的噪声,对所述统计数据中各统计数值进行排序,得到所述排序后的统计数据,包括:以i=1为初始值;当第i个统计数值与所述第i个统计数值的噪声之和大于第i+1个统计数值与所述第i+1个统计数值的噪声之和时,交换所述第i个统计数值与所述第i+1个统计数值,将i更新为i+1,直至更新后的i等于所述统计数据中统计数值的总数,得到所述排序后的统计数据;其中,i为整数。进一步地,所述根据所述第一部分差分隐私预算,对所述排序后的统计数据进行合并,得到所述合并后的统计数据,包括:获取所述排序后的统计数据的发布误差阈值和隐私预算阈值;判断所述第一部分隐私预算是否大于等于所述隐私预算阈值;当所述第一部分隐私预算大于等于所述隐私预算阈值时,从所述排序后的统计数据中,选取出相邻统计数值之差最小的两个统计数值,合并所述两个统计数值为一个统计数值,用合并后的一个统计数值和剩余统计数值形成单次合并后的统计数据;确定所述单次合并后的统计数据的发布误差;当所述单次合并后的统计数据的发布误差小于所述发布误差阈值时,将所述发布误差阈值更新为所述单次合并后的统计数据的发布误差,将所述第一部分隐私预算更新为所述第一部分隐私预算减去所述隐私预算阈值,重新判断所述第一部分隐私预算是否大于等于所述隐私预算阈值,直至合并完成;当所述单次合并后的统计数据的发布误差大于等于所述发布误差阈值时,合并完成;用合并完成后的统计数据形成所述合并后的统计数据;其中,所述剩余统计数值为所述排序后的统计数据中除所述两个统计数值以外的其他统计数值。进一步地,所述根据所述第二部分差分隐私预算,对所述合并后的统计数据进行加噪,生成所述发布数据,包括:根据所述第二部分隐私预算和所述合并后的统计数据中每个统计数值中已经合并的统计数值个数,分别对所述合并后的统计数据中每个统计数值进行加噪,生成所述发布数据。第二方面,本专利技术实施例提供一种发布数据的生成装置,包括:形成模块,用于按照预设的统计类别对原始数据进行分类统计,用分类统计得到的每个统计类别对应的统计数值形成统计数据;选定模块,用于为所述统计数据选定差分隐私算法;生成模块,用于根据选定的差分隐私算法的隐私预算,对所述统计数据进行排序,对排序后的统计数据进行合并,对合并后的统计数据进行加噪,生成发布数据。进一步地,所述生成模块,具体用于:将选定的差分隐私算法的隐私预算进行拆分,得到第一部分差分隐私预算和第二部分差分隐私预算;根据选定的差分隐私算法的隐私预算,对所述统计数据进行排序,得到所述排序后的统计数据;根据所述第一部分差分隐私预算,对所述排序后的统计数据进行合并,得到所述合并后的统计数据;根据所述第二部分差分隐私预算,对所述合并后的统计数据进行加噪,生成所述发布数据。进一步地,所述生成模块根据选定的差分隐私算法的隐私预算,对所述统计数据进行排序,得到所述排序后的统计数据,包括:根据选定的差分隐私算法的隐私预算,确定出所述统计数据中各统计数值的噪声;根据所述各统计数值的噪声,对所述统计数据中各统计数值进行排序,得到所述排序后的统计数据。进一步地,所述生成模块根据所述各统计数值的噪声,对所述统计数据中各统计数值进行排序,得到所述排序后的统计数据,包括:以i=1为初始值;当第i个统计数值与所述第i个统计数本文档来自技高网
...

【技术保护点】
1.一种发布数据的生成方法,其特征在于,包括:按照预设的统计类别对原始数据进行分类统计,用分类统计得到的每个统计类别对应的统计数值形成统计数据;为所述统计数据选定差分隐私算法;根据选定的差分隐私算法的隐私预算,对所述统计数据进行排序,对排序后的统计数据进行合并,对合并后的统计数据进行加噪,生成发布数据。

【技术特征摘要】
1.一种发布数据的生成方法,其特征在于,包括:按照预设的统计类别对原始数据进行分类统计,用分类统计得到的每个统计类别对应的统计数值形成统计数据;为所述统计数据选定差分隐私算法;根据选定的差分隐私算法的隐私预算,对所述统计数据进行排序,对排序后的统计数据进行合并,对合并后的统计数据进行加噪,生成发布数据。2.根据权利要求1所述的方法,其特征在于,所述根据选定的差分隐私算法的隐私预算,对所述统计数据进行排序,对排序后的统计数据进行合并,对合并后的统计数据进行加噪,生成发布数据,包括:将选定的差分隐私算法的隐私预算进行拆分,得到第一部分差分隐私预算和第二部分差分隐私预算;根据选定的差分隐私算法的隐私预算,对所述统计数据进行排序,得到所述排序后的统计数据;根据所述第一部分差分隐私预算,对所述排序后的统计数据进行合并,得到所述合并后的统计数据;根据所述第二部分差分隐私预算,对所述合并后的统计数据进行加噪,生成所述发布数据。3.根据权利要求2所述的方法,其特征在于,所述根据选定的差分隐私算法的隐私预算,对所述统计数据进行排序,得到所述排序后的统计数据,包括:根据选定的差分隐私算法的隐私预算,确定出所述统计数据中各统计数值的噪声;根据所述各统计数值的噪声,对所述统计数据中各统计数值进行排序,得到所述排序后的统计数据。4.根据权利要求3所述的方法,其特征在于,所述根据所述各统计数值的噪声,对所述统计数据中各统计数值进行排序,得到所述排序后的统计数据,包括:以i=1为初始值;当第i个统计数值与所述第i个统计数值的噪声之和大于第i+1个统计数值与所述第i+1个统计数值的噪声之和时,交换所述第i个统计数值与所述第i+1个统计数值,将i更新为i+1,直至更新后的i等于所述统计数据中统计数值的总数,得到所述排序后的统计数据;其中,i为整数。5.根据权利要求2所述的方法,其特征在于,所述根据所述第一部分差分隐私预算,对所述排序后的统计数据进行合并,得到所述合并后的统计数据,包括:获取所述排序后的统计数据的发布误差阈值和隐私预算阈值;判断所述第一部分隐私预算是否大于等于所述隐私预算阈值;当所述第一部分隐私预算大于等于所述隐私预算阈值时,从所述排序后的统计数据中,选取出相邻统计数值之差最小的两个统计数值,合并所述两个统计数值为一个统计数值,用合并后的一个统计数值和剩余统计数值形成单次合并后的统计数据;确定所述单次合并后的统计数据的发布误差;当所述单次合...

【专利技术属性】
技术研发人员:邵波曾瑞刘芳张译丹
申请(专利权)人:中国移动通信集团黑龙江有限公司中国移动通信集团公司
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1