一种MapReduce数据处理框架下的隐私保护方法技术

技术编号:11249963 阅读:88 留言:0更新日期:2015-04-01 23:31
本发明专利技术提供一种MapReduce数据处理框架下的隐私保护方法,属于大数据领域,本发明专利技术执行过程分为以下三步:(1)首先用户根据应用环境的特殊性来定义Mapper函数的最大输出范围MaxRange;(2)根据MaxRange和Mapper计算的结果,判断结果是否在MaxRange范围之内:(3)如果在范围之内,则根据差分隐私保护的公式给Mapper的输出结果增加Laplacian噪声,如果不在范围之内,则从MaxRange中随机选取一个数字作为该Mapper的输出结果。这种方法的好处在于减少了执行差分隐私保护的Mapper的个数,降低了算法运行的时间。同时也避免了因为过高或者过低的Mapper输出值导致的噪声过大问题,在满足差分隐私保护规则的同时也提高了查询的精度。

【技术实现步骤摘要】
【专利摘要】本专利技术提供,属于大数据领域,本专利技术执行过程分为以下三步:(1)首先用户根据应用环境的特殊性来定义Mapper函数的最大输出范围MaxRange;(2)根据MaxRange和Mapper计算的结果,判断结果是否在MaxRange范围之内:(3)如果在范围之内,则根据差分隐私保护的公式给Mapper的输出结果增加Laplacian噪声,如果不在范围之内,则从MaxRange中随机选取一个数字作为该Mapper的输出结果。这种方法的好处在于减少了执行差分隐私保护的Mapper的个数,降低了算法运行的时间。同时也避免了因为过高或者过低的Mapper输出值导致的噪声过大问题,在满足差分隐私保护规则的同时也提高了查询的精度。【专利说明】-种MapReduce数据处理框架下的隐私保护方法
本专利技术涉及大数据领域,具体涉及一种MapReduce数据处理框架下的隐私保护方 法。利用差分隐私保护策略中添加Laplacian噪声的方法来满足Mapper输出结果的隐私 保护和利用强制范围检查来剔除恶意代码。
技术介绍
当今,社会信息化和网络化的发展导致数据爆炸式增长。据统计,仅仅就中国的互 联网数据量而言,百度每天访问超过10亿次,保持并索引了超过千亿的网页,每天的社交 活跃用户超过5亿,共享图片45亿张,阿里巴巴的日交易额查过200亿,日交易峰值达1亿 次。同时,科学计算、医疗卫生、金融、零售业等各行业也有大量数据在不断产生。2012年全 球信息总量已经达到2. 7ZB,而到2015年这一数值预计会达到8ZB。 海量的数据给社会发展带来的新的机遇。随着软硬件的发展,数据为王的大数据 时代已经到来,战略需求也发生了重大转变:企业关注的重点转向数据,计算机行业正在转 变为真正的信息行业,从追求计算速度转变为大数据处理能力,软件也将从编程为主转变 为以数据为中心。 目前最为流行的大数据处理架构便是MapReduce编程模型,MapReduce可以允许 数据处理能力极高的大量计算机在集群内对数据进行并行处理,同时进行大批量的仿真、 比较、挖掘和筛选,大大提高了大数据的利用价值利用。 然而,大数据相关的存储、挖掘、分析等技术的发展使得人们在互联网上的一言一 行都掌握在互联网服务提供商手中,包括购物习惯、好友联络情况、阅读习惯、检索习惯等 等。例如:当一个电商数据提供者邀请一名数据分析专家进行数据分析时,该专家可能会 编写恶意的代码泄露个人的购买信息,又或者即使这些代码是正确的,攻击者也有可能从 分析的结果结合其他的信息来获得目标用户的隐私的信息。而随着深度学习技术的发展, 数据拥有者往往能从原来看似无害的海量数据中挖掘出个人的隐私信息。多项实际案例说 明,即使无害的数据被大量收集后,也会暴露个人隐私。 针对数据的隐私保护问题,当前主要流行的方法有数据发布的匿名保护技术、社 交网络中匿名保护技术、数字水印技术、数据溯源技术和角色访问控制技术等等。然而, 这些方法基本都属于传统的数据隐私保护技术,适用于小规模、关系型数据库和文件系统 中,不适用于当前的MapReduce计算框架。攻击者很有可能在MapReduce框架的文件读取 和Mapper阶段就通过非法的手段获取了目标用户的隐私信息。因此,如何在Map阶段和 MapReduce框架中进行数据隐私保护是一个关键问题。
技术实现思路
本专利技术提出一种面向MapReduce编程架构的数据隐私保护策略(SeMap),通过在 Hadoop文件系统中应用MAC(MandatoryAccessControl)和在Map的输出端应用差分隐 私保护策略来达到用户的隐私保护。 MapReduce采用〃分而治之〃的思想,把对大规模数据集的操作,分发给一个主节 点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。当前 的MapReduce数据处理要经历Map和Reduce两个阶段,每个阶段都以Key/Value对作为输 入和输出,并由编码提供者选择他们的类型。 本专利技术主要通过差分隐私技术和强制范围检查技术来对MapReduce中使用到的 数据实施隐私保护。(1)首先用户根据应用环境的特殊性来定义Mapper函数的最大输出范 围MaxRange; (2)根据MaxRange和Mapper计算的结果,判断结果是否在MaxRange范围之 内:(3)如果在范围之内,则根据差分隐私保护的公式给Mapper的输出结果增加Laplacian 噪声,如果不在范围之内,贝1J从MaxRange中随机选取一个数字作为该Mapper的输出结果。 对Mapper的结果按照差分隐私保护规则添加噪声主要分为两种不同 的情况来处理;(1)对于可信的Mapper,我们只需要计算Mapper函数的敏感度 Δ/,然后利用Iaplacian分布来产生随机噪声ZqpCVVf),并将噪声增加到输出结果 上;(2)对于不可信的Mapper,我们要求Mapper函数的提供者提供一个估计的函数输出范 围(Aini^Afraas),然后根据该范围确定Mapper函数的敏感度。如果敏感度过高,则抛弃这 个Mapper函数的输出结果。强制范围检查是通过验证Mapper的输出值是否在数据提供者 提供的的Mapper函数的输出范围之内来防止过大或者过小的Mapper输出值造成的隐私信 息泄露。在执行添加噪声之前,我们首先做一个数据的过滤,将不符合MaxRange范围的数 据用随机产生的MaxRange范围内的数进行替换,并且直接只用替换后的Mapper输出值作 为Reduce函数的输出。 这种方法的好处在于减少了执行差分隐私保护的Mapper的个数,降低了算法运 行的时间。同时也避免了因为过高或者过低的Mapper输出值导致的噪声过大问题,在满足 差分隐私保护规则的同时也提高了查询的精度。 【专利附图】【附图说明】 附图1为MapReduce框架结构图。 附图2为MapReduce框架下的隐私保护策略结构图。 附图3为强制范围检查流程处理图。 【具体实施方式】 以下将结合附图及实施例来详细说明本专利技术的实施方式,借此对本专利技术如何应用 技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明 的是,如果不冲突,本专利技术实施例以及实施例中的各个特征的相互均在本专利技术的保护范围 之内。 本专利技术以大数据分析过程中典型的案例说明实施方式。 下面分别简要描述一下这两种方法。 1、强制范围检查: 事实上,有很多的应用场景其Mapper的输出范围都是可以预知的,例如,豆瓣的电影 评分数据,其Mapper的输出值必定在(1,10)的范围之内。数据提供者还可以根据实际应 用场景的特性,给Mapper函数的输出值预定义一个输出范围MaxRange,并且对Mapper函数 的输出结果做强制性检查,如果Mapper的输出在MaxRange之内,那么对其增加噪声,如果 Mapper的输出来MaxRange之外,则将随机选取一个MaxRange内的值替换这个Mapper的输 出值。其具体流程如附图3所示。 2、差分隐私保护策略:本文档来自技高网
...

【技术保护点】
一种MapReduce数据处理框架下的隐私保护方法,其特征在于执行过程分为以下三步:(1)首先用户根据应用环境的特殊性来定义Mapper函数的最大输出范围MaxRange;(2)根据MaxRange和Mapper计算的结果,判断结果是否在MaxRange范围之内:(3)如果在范围之内,则根据差分隐私保护的公式给Mapper的输出结果增加Laplacian噪声,如果不在范围之内,则从MaxRange中随机选取一个数字作为该Mapper的输出结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:苏志远辛国茂亓开元刘伟曹连超金洪殿
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1