System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理,特别涉及一种数据脱敏方法、装置、设备和可读存储介质。
技术介绍
1、数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用。目前的常规数据脱敏系统在对海量的数据进行脱敏时,受制于处理能力的限制,对tb(太字节)及以上级别的数据脱敏时,需要将数据拆分成合适的大小才能进行脱敏,耗时长效率低已经不能满足现有的数据脱敏需求。
技术实现思路
1、本专利技术提供一种数据脱敏方法、装置、设备和可读存储介质,能够省去对数据进行切分的过程,并行脱敏提高了海量数据的脱敏效率。
2、为实现上述目的,本专利技术提供如下技术方案:
3、根据本专利技术具体实施方式提供的一种数据脱敏方法,包括:
4、获取待进行数据脱敏的各源文件;
5、将所述各源文件存储至分布式文件系统中,得到与所述各源文件相对应的分布式文件;
6、基于各分布式文件的属性,确定所述各分布式文件相匹配的脱敏处理单元的数量;
7、基于预先设置的脱敏处理流程对各脱敏处理单元进行配置后,启动所述各脱敏处理单元对所述各分布式文件进行数据脱敏处理。
8、进一步地,所述数据脱敏方法还包括:
9、在所述各脱敏处理单元对所述各分布式文件进行数据脱敏处理后,将数据脱敏结果逐行写入到所述分布式文件系统中,得到所述各分
10、将各脱敏结果文件推送至相对应的源文件所在的系统中。
11、进一步地,所述基于各分布式文件的属性,确定所述各分布式文件相匹配的脱敏处理单元的数量,包括:
12、根据所述各分布式文件的大小以及优先级,确定所述各分布式文件相匹配的脱敏处理单元的数量。
13、进一步地,所述基于预先设置的脱敏处理流程对各脱敏处理单元进行配置后,启动所述各脱敏处理单元对所述各分布式文件进行数据脱敏处理,包括:
14、基于预设脱敏规则和脱敏字段对所述各脱敏处理单元的上下文参数进行设置;
15、基于所述脱敏字段的长度对所述各脱敏处理单元的切分步长进行设置。
16、根据本专利技术具体实施方式提供的一种数据脱敏装置,包括:
17、数据获取模块,用于获取待进行数据脱敏的各源文件;
18、文件转换模块,用于将所述各源文件存储至分布式文件系统中,得到与所述各源文件相对应的分布式文件;
19、处理单元匹配模块,用于基于各分布式文件的属性,确定所述各分布式文件相匹配的脱敏处理单元的数量;以及
20、数据脱敏模块,用于基于预先设置的脱敏处理流程对各脱敏处理单元进行配置后,启动所述各脱敏处理单元对所述各分布式文件进行数据脱敏处理。
21、进一步地,所述数据脱敏模块还用于:在所述各脱敏处理单元对所述各分布式文件进行数据脱敏处理后,将数据脱敏结果逐行写入到所述分布式文件系统中,得到所述各分布式文件的脱敏结果文件;
22、将各脱敏结果文件推送至相对应的源文件所在的系统中。
23、进一步地,所述处理单元匹配模块具体用于:
24、根据所述各分布式文件的大小以及优先级,确定所述各分布式文件相匹配的脱敏处理单元的数量。
25、进一步地,所述数据脱敏模块具体用于:
26、基于预设脱敏规则和脱敏字段对所述各脱敏处理单元的上下文参数进行设置;
27、基于所述脱敏字段的长度对所述各脱敏处理单元的切分步长进行设置。
28、根据本专利技术具体实施方式提供的一种设备,包括:存储器和处理器;
29、所述存储器,用于存储程序;
30、所述处理器,用于执行所述程序,实现如上所述的数据脱敏方法的各个步骤。
31、根据本专利技术具体实施方式提供的一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的数据脱敏方法的各个步骤。
32、由以上技术方案可以看出,本专利技术中公开了一种数据脱敏方法,可以在获取待进行数据脱敏的各源文件后,先将各源文件存储至分布式文件系统中,得到与各源文件相对应的分布式文件。再根据各分布式文件的属性,确定各分布式文件相匹配的脱敏处理单元的数量。在确定好各个数据源对应的脱敏处理单元的数量后,基于预先设置的脱敏处理流程对各脱敏处理单元进行配置后,启动各脱敏处理单元对各分布式文件进行数据脱敏处理。该数据脱敏方法能够省去对数据进行切分的过程,并采用脱敏处理单元进行并行脱敏,提高了海量数据的脱敏效率。
本文档来自技高网...【技术保护点】
1.一种数据脱敏方法,其特征在于,包括:
2.根据权利要求1所述的数据脱敏方法,其特征在于,还包括:
3.根据权利要求1所述的数据脱敏方法,其特征在于,所述基于各分布式文件的属性,确定所述各分布式文件相匹配的脱敏处理单元的数量,包括:
4.根据权利要求1所述的数据脱敏方法,其特征在于,所述基于预先设置的脱敏处理流程对各脱敏处理单元进行配置后,启动所述各脱敏处理单元对所述各分布式文件进行数据脱敏处理,包括:
5.一种数据脱敏装置,其特征在于,包括:
6.根据权利要求5所述的数据脱敏装置,其特征在于,所述数据脱敏模块还用于:在所述各脱敏处理单元对所述各分布式文件进行数据脱敏处理后,将数据脱敏结果逐行写入到所述分布式文件系统中,得到所述各分布式文件的脱敏结果文件;
7.根据权利要求5所述的数据脱敏装置,其特征在于,所述处理单元匹配模块具体用于:
8.根据权利要求5所述的数据脱敏装置,其特征在于,所述数据脱敏模块具体用于:
9.一种设备,其特征在于,包括:存储器和处理器;
10.一
...【技术特征摘要】
1.一种数据脱敏方法,其特征在于,包括:
2.根据权利要求1所述的数据脱敏方法,其特征在于,还包括:
3.根据权利要求1所述的数据脱敏方法,其特征在于,所述基于各分布式文件的属性,确定所述各分布式文件相匹配的脱敏处理单元的数量,包括:
4.根据权利要求1所述的数据脱敏方法,其特征在于,所述基于预先设置的脱敏处理流程对各脱敏处理单元进行配置后,启动所述各脱敏处理单元对所述各分布式文件进行数据脱敏处理,包括:
5.一种数据脱敏装置,其特征在于,包括:
6.根据权利要求5所述的数据脱敏装置,其特征在于,所述...
【专利技术属性】
技术研发人员:秦胜勇,
申请(专利权)人:中国银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。