数据脱敏方法及装置制造方法及图纸

技术编号:15501551 阅读:67 留言:0更新日期:2017-06-03 22:52
本发明专利技术提供了一种数据脱敏方法及装置,其中,该方法包括:根据脱敏策略从HBase数据库获取表结构,用于配置MapReduce作业;提交所述MapReduce作业给Hadoop集群执行脱敏操作。通过本发明专利技术,解决了现有技术中基于Hadoop架构下对HBase数据脱敏时效率低的技术问题。

Data desensitization method and apparatus

The invention provides a device and a method of data, including the method of desensitization, including: according to the desensitization strategy acquisition table structure from the HBase database is used to configure the MapReduce operation; submit the job to the MapReduce Hadoop cluster to perform desensitization operation. The invention solves the technical problem that the efficiency of the HBase data desensitization under the Hadoop framework is low in the prior art.

【技术实现步骤摘要】
数据脱敏方法及装置
本专利技术涉及数据处理领域,具体而言,涉及一种数据脱敏方法及装置。
技术介绍
相关技术中,数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。HBase是一个分布式的、面向列的开源数据库,一个结构化数据的分布式存储系统,HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。能够对大量数据进行分布式处理的软件框架。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。JAR文件格式以流行的ZIP文件格式为基础。与ZIP文件不同的是,JAR文件不仅用于压缩和发布,而且还用于部署和封装库、组件和插件程序,并可被像编译器和JVM这样的工具直接使用。一个JAR文件可以用于:用于发布和使用类库、作为应用程序和扩展的构建单元、作为组件、Applet或者插件程序的部署单位、用于打包与组件相关联的辅助资源。FATJAR打包插件,可以方便的完成各种打包任务,可以包含外部的包等。数据脱敏传统的脱敏方式,是将源数据库的数据抽取到脱敏平台,对数据进行脱敏转换后,再将转换后的数据装载到目标数据库。现有技术对于处理传统关系型数据库(如ORACLE、DB2、Mysql等)的数据量,一般都可以在一个晚上执行完脱敏任务。但是,对于Hadoop这样的超大规模数据处理平台,用传统的脱敏方式处理将需要半个月甚至一个月的时间,这样的处理速度是不可忍受的。现有的对Hadoop平台HBase脱敏的处理方式一般是通过HadoopAPI或者第三方工具如Phoenix,将HBase数据抽取到脱敏平台进行脱敏转换处理,再将转换后的数据通过API或工具装载回HBase数据库。这些方式都面临脱敏平台单点处理能力上限问题。针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
技术实现思路
本专利技术实施例提供了一种数据脱敏方法及装置,以至少解决现有技术中基于Hadoop架构下对HBase数据脱敏时效率低的技术问题。根据本专利技术的一个实施例,提供了一种数据脱敏方法,包括:根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业;提交所述MapReduce作业给Hadoop集群执行脱敏操作。可选地,在根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业之前,所述方法还包括:配置所述HBase数据库的所述脱敏策略。可选地,配置所述HBase数据库的所述脱敏策略包括:将所述Hadoop的应用程序编程接口API作为提交所述MapReduce作业的通道;将所述HBase数据库的类信息、所述HBase数据库的配置文件、以及第三方JAR包配置在包括所述MapReduce作业的胖JAR包;设置系统环境变量Hadoop_USER_NAME对提交所述MapReduce作业的用户进行鉴权。可选地,根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业包括:根据表结构对所述HBase数据库的表做全表扫描,和/或,根据预配置的表项和记录数对所述HBase数据库的表做全表扫描;对扫描得到的所述HBase数据库的表和表结构进行脱敏算法的配置得到所述MapReduce作业。可选地,所述表结构为:字段名。可选地,提交所述MapReduce作业给Hadoop集群执行脱敏操作包括:根据预设规则判断是否覆盖所述HBase数据库的原表;在覆盖所述HBase数据库的原表的情况下,删除所述原表并重命名脱敏后的表为所述原表的名称;在不覆盖所述HBase数据库的原表的情况下,创建表并保存脱敏后的表数据,其中,创建的表配置原表名的后缀名。可选地,提交所述MapReduce作业给Hadoop集群执行脱敏操作包括:获取所述脱敏策略配置的脱敏字段及脱敏算法,以及查询用于脱敏的预设数据字典;根据所述脱敏字段和所述预设数据字典执行所述脱敏算法,返回脱敏数据。根据本专利技术的另一个实施例,提供了一种数据脱敏装置,包括:获取模块,用于根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业;提交模块,用于提交所述MapReduce作业给Hadoop集群执行脱敏操作。可选地,所述装置还包括:配置模块,用于在所述获取模块根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业之前,配置所述HBase数据库的所述脱敏策略。可选地,所述配置模块包括包括:第一配置单元,用于将所述Hadoop的应用程序编程接口API作为提交所述MapReduce作业的通道;第二配置单元,用于将所述HBase数据库的类信息、所述HBase数据库的配置文件、以及第三方JAR包配置在包括所述MapReduce作业的胖JAR包;第三配置单元,用于设置系统环境变量Hadoop_USER_NAME对提交所述MapReduce作业的用户进行鉴权。可选地,所述获取模块包括:扫描单元,用于根据表结构对所述HBase数据库的表做全表扫描,和/或,根据预配置的表项和记录数对所述HBase数据库的表做全表扫描;获取单元,用于对扫描得到的所述HBase数据库的表和表结构进行脱敏算法的配置得到所述MapReduce作业。可选地,所述表结构为:字段名。可选地,所述提交模块包括:判断单元,用于根据预设规则判断是否覆盖所述HBase数据库的原表;处理单元,用于在覆盖所述HBase数据库的原表的情况下,删除所述原表并重命名脱敏后的表为所述原表的名称;在不覆盖所述HBase数据库的原表的情况下,创建表并保存脱敏后的表数据,其中,创建的表配置原表名的后缀名。可选地,所述提交模块包括:处理单元,用于获取所述脱敏策略配置的脱敏字段及脱敏算法,以及查询用于脱敏的预设数据字典;脱敏单元,用于根据所述脱敏字段和所述预设数据字典执行所述脱敏算法,返回脱敏数据。根据本专利技术的又一个实施例,还提供了一种存储介质。该存储介质设置为存储用于执行以下步骤的程序代码:根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业;提交所述MapReduce作业给Hadoop集群执行脱敏操作。通过本专利技术,根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业;提交所述MapReduce作业给Hadoop集群执行脱敏操作。由本文档来自技高网
...
数据脱敏方法及装置

【技术保护点】
一种数据脱敏方法,其特征在于,包括:根据脱敏策略从HBase数据库获取表结构,配置用于脱敏的MapReduce作业;提交所述MapReduce作业给Hadoop集群执行脱敏操作。

【技术特征摘要】
1.一种数据脱敏方法,其特征在于,包括:根据脱敏策略从HBase数据库获取表结构,配置用于脱敏的MapReduce作业;提交所述MapReduce作业给Hadoop集群执行脱敏操作。2.根据权利要求1所述的方法,其特征在于,在根据脱敏策略从HBase数据库获取表结构,配置用于脱敏的MapReduce作业之前,所述方法还包括:配置所述HBase数据库的所述脱敏策略。3.根据权利要求2所述的方法,其特征在于,配置所述HBase数据库的所述脱敏策略包括:将所述Hadoop的应用程序编程接口API作为提交所述MapReduce作业的通道;将所述HBase数据库的类信息、所述HBase数据库的配置文件、以及第三方JAR包配置在包括所述MapReduce作业的胖JAR包;设置系统环境变量Hadoop_USER_NAME对提交所述MapReduce作业的用户进行鉴权。4.根据权利要求1所述的方法,其特征在于,根据脱敏策略从HBase数据库获取表结构,用于配置脱敏的MapReduce作业包括:根据表结构对所述HBase数据库的表做全表扫描,和/或,根据预配置的表项和记录数对所述HBase数据库的表做全表扫描;对扫描得到的所述HBase数据库的表和表结构进行脱敏算法的配置得到所述MapReduce作业。5.根据权利要求4所述的方法,其特征在于,所述表结构为:字段名。6.根据权利要求1所述的方法,其特征在于,提交所述MapReduce作业给Hadoop集群执行脱敏操作包括:根据预设规则判断是否覆盖所述HBase数据库的原表;在覆盖所述HBase数据库的原表的情况下,删除所述原表并重命名脱敏后的表为所述原表的名称;在不覆盖所述HBase数据库的原表的情况下,创建表并保存脱敏后的表数据,其中,创建的表配置原表名的后缀名。7.根据权利要求1所述的方法,其特征在于,提交所述MapReduce作业给Hadoop集群执行脱敏操作包括:获取所述脱敏策略配置的脱敏字段及脱敏算法,以及查询用于脱敏的预设数据字典;根据所述脱敏字段和所述预设数据字典执行所述脱敏算法,返回脱敏数据。8.一种数...

【专利技术属性】
技术研发人员:王明马晓雨
申请(专利权)人:中国民航信息网络股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1