一种静态数据脱敏的方法、装置、设备及存储介质制造方法及图纸

技术编号:21892672 阅读:36 留言:0更新日期:2019-08-17 14:48
本发明专利技术公开了一种静态数据脱敏的方法、装置、设备及存储介质,涉及数据安全领域,所述方法包括:对待导入或待导出的数据集进行划分,得到多个数据分区,并读取每个所述数据分区的数据;对每个所述数据分区的数据进行脱敏处理,得到已脱敏数据;将所述已脱敏数据写入关系数据库或大数据系统。本发明专利技术实施例可以同时支持大数据系统及关系数据库的静态数据脱敏,并支持敏感数据脱敏后导入导出大数据系统。

A Method, Device, Equipment and Storage Media for Static Data Desensitization

【技术实现步骤摘要】
一种静态数据脱敏的方法、装置、设备及存储介质
本专利技术涉及数据安全领域,特别涉及一种静态数据脱敏的方法、装置、设备及存储介质。
技术介绍
在一些应用场景中,传统关系数据库需要向大数据系统迁移数据或者将大数据系统中的数据同步到关系数据库。这些源数据库系统中存储了大量的隐私数据,其中有些敏感信息具有以下特征:后续应用环节对于个体数据的失真不关注,仅关注群体的分布特征,用于统计和数据挖掘应用。对于这一类敏感信息,通过静态数据脱敏技术在将敏感数据持久化存储到目标数据库系统之前,就要依据数据特征使用随机化等数据脱敏算法对个体数据的敏感信息进行数据失真处理,使数据内容及数据间的关联能够满足测试、开发中的问题排查需要,同时进行数据分析、数据挖掘等分析活动。目前,很多关系数据库自身不具备数据脱敏功能,无法利用数据库自身的能力进行静态脱敏。静态数据脱敏方法和装置大都面向关系数据库,不支持关系数据库与大数据系统之间敏感数据脱敏后的导入导出。常用的静态脱敏方法通常利用脱敏服务器中间件执行脚本或者多线程任务获取脱敏后的数据后再导入目标数据库,此类方法需要脱敏服务器进行数据中转。在大数据海量数据的场景下,脱敏服务器将成为性能瓶颈,无法充分利用大数据的分布式并行处理能力进行静态数据脱敏。
技术实现思路
本专利技术实施例提供的一种静态数据脱敏的方法、装置、设备及存储介质,解决现有关系数据库和大数据系统(即大数据数据库系统)不支持数据脱敏,敏感数据脱敏后导入导出,以及采用脱敏服务器中间静态脱敏方式处理性能差的问题。根据本专利技术实施例提供的一种静态数据脱敏的方法,包括:对待导入或待导出的数据集进行划分,得到多个数据分区,并读取每个所述数据分区的数据;对每个所述数据分区的数据进行脱敏处理,得到已脱敏数据;将所述已脱敏数据写入关系数据库或大数据系统。优选地,所述对待导入或待导出的数据集进行划分,得到多个数据分区,并读取每个所述数据分区的数据包括:利用大数据处理工具sqoop,从所述关系数据库获取所述待导入的数据集的元数据信息,并生成用于实现数据导入的映射规约MapReduce作业;在执行所述MapReduce作业期间,根据所述待导入的数据集的元数据信息,对所述待导入的数据集进行划分,得到多个所述数据分区,并启动用于并发进行多个静态脱敏处理的多个映射Map任务;为每个所述Map任务获取一个所述数据分区的分区信息,并根据所述分区信息,从所述关系数据库读取每个所述数据分区的数据。优选地,所述对每个所述数据分区的数据进行脱敏处理,得到已脱敏数据包括:在执行每个所述Map任务期间,按照预设脱敏策略,在从所述关系数据库读取的数据中筛选出敏感数据;调用所述预设脱敏策略指定的适于所述敏感数据的数据脱敏算法,并利用所述数据脱敏算法,对所述敏感数据进行脱敏处理,以便将脱敏处理后得到的数据写入所述大数据系统。优选地,所述对待导入或待导出的数据集进行划分,得到多个数据分区,并读取每个所述数据分区的数据包括:利用sqoop,从所述大数据系统获取所述待导出的数据集的元数据信息,并生成用于实现数据导出的MapReduce作业;在执行所述MapReduce作业期间,根据所述待导出的数据集的元数据信息,对所述待导出的数据集进行划分,得到多个所述数据分区,并启动用于并发进行多个静态脱敏任务的多个映射Map任务;为每个所述Map任务获取一个所述数据分区的分区信息,并根据所述分区信息,从所述大数据系统读取所述数据分区的数据。优选地,所述对每个所述数据分区的数据进行脱敏处理,得到已脱敏数据包括:在执行每个所述Map任务期间,按照预设脱敏策略,在从所述大数据系统读取的所述数据中筛选出敏感数据;调用所述预设脱敏策略指定的适于所述敏感数据的数据脱敏算法,并利用所述数据脱敏算法,对所述敏感数据进行脱敏处理,以便将脱敏处理后得到的数据写入所述关系数据库。优选地,在所述对待导入或待导出的数据集进行划分,得到多个数据分区,并读取每个所述数据分区的数据前,还包括:通过在所述sqoop的授权模型中加入作为新受控对象的脱敏资源,得到扩展授权模型,并利用所述扩展授权模型,设置所述预设脱敏策略。优选地,所述利用所述扩展授权模型,设置所述预设脱敏策略包括:利用所述扩展授权模型,设置不同的数据脱敏粒度,并根据所述数据脱敏粒度,设置所述预设脱敏策略。根据本专利技术实施例提供的一种静态数据脱敏的装置,包括:数据读取模块,用于对待导入或待导出的数据集进行划分,得到多个数据分区,并读取每个所述数据分区的数据;数据脱敏模块,用于按照预设脱敏策略,对每个所述数据分区的数据进行脱敏处理,得到已脱敏数据;数据写入模块,用于将所述已脱敏数据写入关系数据库或大数据系统。根据本专利技术实施例提供的一种静态数据脱敏的设备,包括:处理器,以及与所述处理器耦接的存储器;所述存储器上存储有可在所述处理器上运行的静态数据脱敏的程序,所述静态数据脱敏的程序被所述处理器执行时实现如上述的静态数据脱敏的方法的步骤。根据本专利技术实施例提供的一种存储介质,其上存储有静态数据脱敏的程序,所述静态数据脱敏的程序被处理器执行时实现上述的静态数据脱敏的方法的步骤。本专利技术实施例提供的技术方案具有如下有益效果:本专利技术实施例在不破坏原始数据的前提下,根据脱敏策略对待导入或待导出的敏感数据进行高性能分布式脱敏转换后再写入关系数据库或大数据系统,从而保护数据隐私。附图说明图1是本专利技术实施例提供的静态数据脱敏的方法框图;图2是本专利技术实施例提供的静态数据脱敏的装置的结构框图;图3是本专利技术实施例提供的静态数据脱敏的设备框图;图4是本专利技术实施例提供的静态数据脱敏装置的功能模块图;图5是本专利技术实施例提供的利用sqoop实施静态数据脱敏流程。具体实施方式以下结合附图对本专利技术的优选实施例进行详细说明,应当理解,以下所说明的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。图1是本专利技术实施例提供的静态数据脱敏的方法框图,如图1所示,步骤包括:步骤S101:对待导入或待导出的数据集进行划分,得到多个数据分区,并读取每个所述数据分区的数据。对待导入数据集的处理:利用sqoop,从关系数据库获取所述待导入的数据集的元数据信息,并生成用于实现数据导入的映射规约MapReduce作业,在执行该MapReduce作业期间,根据所述待导入的数据集的元数据信息,对所述待导入的数据集进行划分,得到多个所述数据分区,并启动用于并发进行多个静态脱敏处理的多个映射Map任务,然后为每个所述Map任务获取一个所述数据分区的分区信息,并根据所述分区信息,从所述关系数据库读取每个所述数据分区的数据。对待导出数据集的处理:利用sqoop,从大数据系统获取所述待导出的数据集的元数据信息,并生成用于实现数据导出的MapReduce作业,在执行该MapReduce作业期间,根据所述待导出的数据集的元数据信息,对所述待导出的数据集进行划分,得到多个所述数据分区,并启动用于并发进行多个静态脱敏任务的多个映射Map任务,然后为每个所述Map任务获取一个所述数据分区的分区信息,并根据所述分区信息,从所述大数据系统读取所述数据分区的数据。其中,sqoop:SQL-to-Hadoop,是一个用于Hadoop大数据系统和关系型数据库(即本文档来自技高网...

【技术保护点】
1.一种静态数据脱敏的方法,其特征在于,包括:对待导入或待导出的数据集进行划分,得到多个数据分区,并读取每个所述数据分区的数据;对每个所述数据分区的数据进行脱敏处理,得到已脱敏数据;将所述已脱敏数据写入关系数据库或大数据系统。

【技术特征摘要】
1.一种静态数据脱敏的方法,其特征在于,包括:对待导入或待导出的数据集进行划分,得到多个数据分区,并读取每个所述数据分区的数据;对每个所述数据分区的数据进行脱敏处理,得到已脱敏数据;将所述已脱敏数据写入关系数据库或大数据系统。2.根据权利要求1所述的方法,其特征在于,所述对待导入或待导出的数据集进行划分,得到多个数据分区,并读取每个所述数据分区的数据包括:利用大数据处理工具sqoop,从所述关系数据库获取所述待导入的数据集的元数据信息,并生成用于实现数据导入的映射规约MapReduce作业;在执行所述MapReduce作业期间,根据所述待导入的数据集的元数据信息,对所述待导入的数据集进行划分,得到多个所述数据分区,并启动用于并发进行多个静态脱敏处理的多个映射Map任务;为每个所述Map任务获取一个所述数据分区的分区信息,并根据所述分区信息,从所述关系数据库读取每个所述数据分区的数据。3.根据权利要求2所述的方法,其特征在于,所述对每个所述数据分区的数据进行脱敏处理,得到已脱敏数据包括:在执行每个所述Map任务期间,按照预设脱敏策略,在从所述关系数据库读取的数据中筛选出敏感数据;调用所述预设脱敏策略指定的适于所述敏感数据的数据脱敏算法,并利用所述数据脱敏算法,对所述敏感数据进行脱敏处理,以便将脱敏处理后得到的数据写入所述大数据系统。4.根据权利要求1所述的方法,其特征在于,所述对待导入或待导出的数据集进行划分,得到多个数据分区,并读取每个所述数据分区的数据包括:利用sqoop,从所述大数据系统获取所述待导出的数据集的元数据信息,并生成用于实现数据导出的MapReduce作业;在执行所述MapReduce作业期间,根据所述待导出的数据集的元数据信息,对所述待导出的数据集进行划分,得到多个所述数据分区,并启动用于并发进行多个静态脱敏任务的多个映射Map任务;为每个所述Map任务获取一个...

【专利技术属性】
技术研发人员:牛家浩张强阳方
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1