【技术实现步骤摘要】
一种带隐私保护的Spark工作流调度方法及系统
本专利技术属于Spark大数据处理
,具体涉及一种带隐私保护的Spark工作流调度方法及系统。
技术介绍
Spark是基于并行计算技术的较新的分布式计算框架,Spark的内核使用一种称为RDDs(弹性分布式数据集)的数据结构来对分布式数据提供统一的视图。然而,RDDs中表示的数据可能导致应用程序处理的隐私数据泄漏,且Spark默认的两种调度策略FIFO和FAIR都无法对隐私数据进行有效保护。这使得在一些输入数据带有少量隐私保护要求,且处理结果能够分享给外界的场景中,Spark框架无法灵活地处理。一个Spark应用通常包含一组有偏序关系的作业,一个作业中又能划分为一组有偏序关系的阶段,拓扑关系有嵌套的层次结构,所以整个Spark应用任务的拓扑排序组合数量相当大,很难得到一个目标为最小化完工时间的最佳序列。目前用于数据安全和隐私保护的三种主要技术有数据加密技术、数据匿名化方法和数据分片技术,对数据进行加密是一种传统的数据保护技术,可以用于数据加密存储与数据加密处理。但 ...
【技术保护点】
1.一种带隐私保护的Spark工作流调度方法,其特征是,包括:/na、根据隐私性规则对输入数据进行判断和标记,将符合隐私性规则的输入数据标记为隐私数据,其余数据为普通数据;/nb、将隐私数据和普通数据以分区为单位进行隐私性标记,含有隐私数据的分区标记为隐私分区,其余分区为普通分区;/nc、将普通分区和需要以普通分区作为输入的Spark就绪任务调度到Spark集群中的普通数据中心的节点上处理,得到第一输出数据;将隐私分区和需要以隐私分区作为输入的Spark就绪任务调度到Spark集群中指定的隐私数据中心的节点上处理,得到第二输出数据;/nd、判断第一输出数据和第二输出数据是最 ...
【技术特征摘要】
1.一种带隐私保护的Spark工作流调度方法,其特征是,包括:
a、根据隐私性规则对输入数据进行判断和标记,将符合隐私性规则的输入数据标记为隐私数据,其余数据为普通数据;
b、将隐私数据和普通数据以分区为单位进行隐私性标记,含有隐私数据的分区标记为隐私分区,其余分区为普通分区;
c、将普通分区和需要以普通分区作为输入的Spark就绪任务调度到Spark集群中的普通数据中心的节点上处理,得到第一输出数据;将隐私分区和需要以隐私分区作为输入的Spark就绪任务调度到Spark集群中指定的隐私数据中心的节点上处理,得到第二输出数据;
d、判断第一输出数据和第二输出数据是最终结果还是中间结果,若是最终结果则对应的工作流的流程结束;若是中间结果则将其作为输入数据,重复进行步骤a~c,直至所有Spark就绪队列中的Spark就绪任务全部处理完成,则流程结束。
2.根据权利要求1所述的带隐私保护的Spark工作流调度方法,其特征是,在所述步骤a中,输入数据按照多列和/或多个值确定是否具有隐私性,以行为单位进行隐私性标记,具体为:将包含指定列或者指定列中指定值的行标记为隐私数据,标记过后的数据应为,有行标记的那一行数据为隐私数据,没有行标记的数据为普通数据。
3.根据权利要求1所述的带隐私保护的Spark工作流调度方法,其特征是,在所述步骤b中,根据行数据的隐私性优化Spark分区器,使得带有标记的行数据集中到指定分区中;以分区为单位进行隐私性标记,即在Spark内核中数据表示为RDD的数据结构,对RDD进行分区操作时,如果该数据分区...
【专利技术属性】
技术研发人员:顾海花,张霞,孙仁鹏,傅婧,
申请(专利权)人:南京信息职业技术学院,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。