一种数据脱敏方法及装置制造方法及图纸

技术编号:35523137 阅读:15 留言:0更新日期:2022-11-09 14:43
本申请公开了一种数据脱敏方法及装置可应用于数据处理技术领域或金融领域。在执行所述方法时,先获取源异构数据库中待脱敏数据;然后利用预设规则,将所述待脱敏数据转化为第一内存数据流后,写入源数据仓库工具外部表的分布式文件中,接着利用预设脱敏规则,对所述源数据仓库工具外部表进行脱敏处理,得到所述源数据仓库工具外部表对应的脱敏结果;最后将所述脱敏结果写入目标数据仓库工具外部表的分布式文件中。这样,通过源异构数据库中的待脱敏数据直接转化为第一内存数据流,中间没有数据落地到磁盘中,不需要数据库系统频繁访问磁盘文件,达到了减少磁盘I/O开销的效果。达到了减少磁盘I/O开销的效果。达到了减少磁盘I/O开销的效果。

【技术实现步骤摘要】
一种数据脱敏方法及装置


[0001]本申请涉及数据处理
,尤其涉及一种数据脱敏方法及装置。

技术介绍

[0002]数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用。
[0003]在现有技术中,对异构数据库的数据进行脱敏时,需要先将数据导出为文件后,上传至HDFS分布式文件系统中,再执行数据库命令将数据导入至Hive数据仓库工具外部表,最后在Hive数据仓库工具外部表数据库中对数据进行脱敏。
[0004]由于将待脱敏数据导出为本地文件后,先将该文件存储在本地磁盘中,等到需要将文件上传至HDFS分布式文件系统时,再从本地磁盘中读取文件,导致Hive数据库系统频繁访问磁盘文件,进而使得磁盘I/O开销高,且磁盘易损坏。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种数据脱敏方法及装置,旨在将待脱敏数据转化为第一内存数据流,不需要将待脱敏数据导出为本地文件,减少磁盘I/O开销。
[0006]第一方面,本申请实施例提供了一种数据脱敏方法,所述方法包括:
[0007]获取源异构数据库中待脱敏数据;
[0008]利用预设规则,将所述待脱敏数据转化为第一内存数据流后,写入源数据仓库工具外部表的分布式文件中;
[0009]利用预设脱敏规则,对所述源数据仓库工具外部表进行脱敏处理,得到所述源数据仓库工具外部表对应的脱敏结果;
[0010]将所述脱敏结果写入目标数据仓库工具外部表的分布式文件中。
[0011]优选地,所述将所述待脱敏数据转化为第一内存数据流后,写入源数据仓库工具外部表的分布式文件中包括:
[0012]将所述第一内存数据流转化为对应的文本;
[0013]通过所述分布式文件的系统接口,将所述文本写入源数据仓库工具外部表的分布式文件中。
[0014]优选地,所述利用预设脱敏规则,对所述源数据仓库工具外部表进行脱敏处理,得到所述源数据仓库工具外部表对应的脱敏结果包括:
[0015]利用预设脱敏规则,生成数据库脱敏语句;
[0016]利用所述数据库脱敏语句,对所述源数据仓库工具外部表的字段进行脱敏处理,得到所述源数据仓库工具外部表对应的脱敏结果。
[0017]优选地,在将所述脱敏结果写入目标数据仓库工具外部表的分布式文件中之后,所述方法还包括:
[0018]获取所述目标数据仓库工具外部表的分布式文件中的脱敏结果;
[0019]将所述脱敏结果转化为第二内存数据流;
[0020]将所述第二内存数据流写入目标异构数据库中。
[0021]第二方面,本申请实施例提供了一种数据脱敏装置,所述装置包括:
[0022]第一获取模块,用于获取源异构数据库中待脱敏数据;
[0023]第一写入模块,用于利用预设规则,将所述待脱敏数据转化为第一内存数据流后,写入源数据仓库工具外部表的分布式文件中;
[0024]数据脱敏模块,用于利用预设脱敏规则,对所述源数据仓库工具外部表进行脱敏处理,得到所述源数据仓库工具外部表对应的脱敏结果;
[0025]第二写入模块,用于将所述脱敏结果写入目标数据仓库工具外部表的分布式文件中。
[0026]优选地,所述第二获取模块,具体用于将所述第一内存数据流转化为对应的文本;
[0027]通过所述分布式文件的系统接口,将所述文本写入源数据仓库工具外部表的分布式文件中。
[0028]优选地,所述数据脱敏模块,具体用于利用预设脱敏规则,生成数据库脱敏语句;
[0029]利用所述数据库脱敏语句,对所述源数据仓库工具外部表的字段进行脱敏处理,得到所述源数据仓库工具外部表对应的脱敏结果。
[0030]优选地,在将所述脱敏结果写入目标数据仓库工具外部表的分布式文件中之后,所述装置还包括:
[0031]第二获取模块,用于获取所述目标数据仓库工具外部表的分布式文件中的脱敏结果;
[0032]第一转化模块,用于将所述脱敏结果转化为第二内存数据流;
[0033]第三写入模块,用于将所述第二内存数据流写入目标异构数据库中。
[0034]第三方面,本申请实施例提供了一种电子设备,所述电子设备包括:
[0035]存储器,用于存储一个或多个程序;
[0036]处理器;当所述一个或多个程序被所述处理器执行时,实现前述第一方面任一项所述的数据脱敏处理方法。
[0037]第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质中存储有程序,当所述程序被处理器执行时,实现前述第一方面任一项所述的数据脱敏处理方法。
[0038]上述技术方案具有如下有益效果:
[0039]本申请实施例提供了一种数据脱敏方法及装置。在执行所述方法时,先获取源异构数据库中待脱敏数据;然后利用预设规则,将所述待脱敏数据转化为第一内存数据流后,写入源数据仓库工具外部表的分布式文件中,接着利用预设脱敏规则,对所述源数据仓库工具外部表进行脱敏处理,得到所述源数据仓库工具外部表对应的脱敏结果;最后将所述脱敏结果写入目标数据仓库工具外部表的分布式文件中。这样,通过源异构数据库中的待脱敏数据直接转化为第一内存数据流,中间没有数据落地到磁盘中,不需要数据库系统频繁访问磁盘文件,达到了减少磁盘I/O开销的效果。
附图说明
[0040]为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]图1为本申请实施例提供的数据脱敏方法的一种方法流程图;
[0042]图2为本申请实施例提供的数据脱敏装置的一种结构示意图。
具体实施方式
[0043]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0044]在现有技术中,对异构数据库的数据进行脱敏时,需要先将数据导出为文件后,上传至分布式文件系统(Hadoop Distributed File System,HDFS)中,再执行数据库命令将数据导入至Hive数据仓库工具外部表,最后在Hive数据仓库工具外部表数据库中对数据进行脱敏。
[0045]由于将待脱敏数据导出为本地文件后,先将该文件存储在本地磁盘中,等到需要将文件上传至HDFS分布式文件系统时,再从本地磁盘中读取文件,导致Hive数据库系统频繁访问磁盘文件,进而使得磁盘I/O开销高,而且,由于频繁读写磁盘,影响本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据脱敏方法,其特征在于,所述方法包括:获取源异构数据库中待脱敏数据;利用预设规则,将所述待脱敏数据转化为第一内存数据流后,写入源数据仓库工具外部表的分布式文件中;利用预设脱敏规则,对所述源数据仓库工具外部表进行脱敏处理,得到所述源数据仓库工具外部表对应的脱敏结果;将所述脱敏结果写入目标数据仓库工具外部表的分布式文件中。2.根据权利要求1所述的方法,其特征在于,所述将所述待脱敏数据转化为第一内存数据流后,写入源数据仓库工具外部表的分布式文件中包括:将所述第一内存数据流转化为对应的文本;通过所述分布式文件的系统接口,将所述文本写入源数据仓库工具外部表的分布式文件中。3.根据权利要求1所述的方法,其特征在于,所述利用预设脱敏规则,对所述源数据仓库工具外部表进行脱敏处理,得到所述源数据仓库工具外部表对应的脱敏结果包括:利用预设脱敏规则,生成数据库脱敏语句;利用所述数据库脱敏语句,对所述源数据仓库工具外部表的字段进行脱敏处理,得到所述源数据仓库工具外部表对应的脱敏结果。4.根据权利要求1所述的方法,其特征在于,在将所述脱敏结果写入目标数据仓库工具外部表的分布式文件中之后,所述方法还包括:获取所述目标数据仓库工具外部表的分布式文件中的脱敏结果;将所述脱敏结果转化为第二内存数据流;将所述第二内存数据流写入目标异构数据库中。5.一种数据脱敏装置,其特征在于,所述装置包括:第一获取模块,用于获取源异构数据库中待脱敏数据;第一写入模块,用于利用预设规则,将所述待脱敏...

【专利技术属性】
技术研发人员:秦胜勇
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1