一种基于代理的数据动态快速脱敏实现方法技术

技术编号:21141635 阅读:28 留言:0更新日期:2019-05-18 05:18
本发明专利技术涉及一种基于代理的数据动态快速脱敏实现方法,包括:步骤1,将数据中格式统一的数据单独拆分出来,得到拆分字典集合;格式统一的数据包括11位数字数据、2位汉字数据、3位汉字数据、多余10个字符的文本数据中的多种;步骤2,对拆分字典集合中的敏感信息进行分类与识别,得到敏感数据;敏感信息包括身份证号、手机号、银行卡号、姓名、社保号码中的多种;步骤3,基于脱敏算法对敏感数据进行动态脱敏,在动态脱敏过程中将敏感数据类别与每个敏感数据类别下的数据数量,进行负载均衡处理,以使动态脱敏的效率达到最高。本发明专利技术可用于对敏感数据的脱敏工作,实现在数据被访问时,进行快速动态脱敏,为构建安全可信的数据使用环境奠定了坚实的基础。

A Method of Data Dynamic and Fast Desensitization Based on Agent

【技术实现步骤摘要】
一种基于代理的数据动态快速脱敏实现方法
本专利技术属于信息安全
,尤其涉及一种基于代理的数据动态快速脱敏实现方法。
技术介绍
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。数据库安全技术之一,数据库安全技术主要包括:数据库漏扫、数据库加密、数据库防火墙、数据脱敏、数据库安全审计系统。数据库安全风险包括:拖库、刷库、撞库。大数据环境已经逐步应用于了各大企业。企业敏感数据的所有权和使用权缺乏明确界定和管理,可能造成用户隐私信息的泄露和企业内部数据的泄露,直接造成企业声誉和经济的双重损失。从外部来看,数据即价值,大数据平台中复杂、敏感、全面的数据无疑会吸引更多的潜在攻击者。同时,数据的大量汇集,使得黑客成功攻击一次就能获得更多数据,极大降低了黑客的进攻成本。因此,大数据将有可能成为网络攻击的显著目标。大数据平台安全能力的严重缺失和风险的普遍存在,导致大数据平台本身是脆弱的,对企业数据安全造成了极大的风险,对企业来说是难以忽视的风险点。在大数据环境,数据多是以NoSql的存储形式,各种类型的数据也并非是脱敏后进行存储。在访问数据时,对所访问的数据进行敏感检测同时进行脱敏,是大数据环境下实现数据安全访问的重要保障。
技术实现思路
本专利技术的目的是提供一种基于代理的数据动态快速脱敏实现方法,用于数据安全与脱敏领域,实现在数据被访问时,进行快速动态脱敏。本专利技术提供了一种基于代理的数据动态快速脱敏实现方法,包括:步骤1,将数据中格式统一的数据单独拆分出来,得到拆分字典集合;所述格式统一的数据包括11位数字数据、2位汉字数据、3位汉字数据、多余10个字符的文本数据中的多种;步骤2,对所述拆分字典集合中的敏感信息进行分类与识别,得到敏感数据;所述敏感信息包括身份证号、手机号、银行卡号、姓名、社保号码中的多种;步骤3,基于脱敏算法对所述敏感数据进行动态脱敏,在动态脱敏过程中将敏感数据类别与每个敏感数据类别下的数据数量,进行负载均衡处理,以使动态脱敏的效率达到最高。进一步地,所述步骤1包括:将数据进行整体划分,区分出文字、数字、英文字母;基于上述划分结果,统计每一段的长度,并将长度与划分结果进行组合,将划分结果作为拆分字典的key;将数据存入其格式所对应的key下,得到拆分字典集合。进一步地,所述步骤3包括:统计敏感字段的数量,记为M;统计每种敏感字段下数据的总数量,累计结果,记为N;将每一个敏感字段与之对应的数据,放至待处理库;初始化M/2条异步线程,为其设置如下状态:每条线程每次处理该敏感数据时,只处理N/M条数据,不足时不取其他类别;并将其置为空闲状态;当某条线程处于空闲状态时,去待处理去库中取一个的敏感字段进行脱敏处理,直至该敏感字段下所有数据全部处理完毕,将该敏感字段及其数据移出待处理库。借由上述方案,通过基于代理的数据动态快速脱敏实现方法,可用于对敏感数据的脱敏工作,实现在数据被访问时,进行快速动态脱敏,为构建安全可信的数据使用环境奠定了坚实的基础。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。附图说明图1为本专利技术一种基于代理的数据动态快速脱敏实现方法的整体流程图;图2为本专利技术一种基于代理的数据动态快速脱敏实现方法的数据拆分算法流程图;图3为本专利技术一种基于代理的数据动态快速脱敏实现方法的数据归类算法流程图;图4为本专利技术一种基于代理的数据动态快速脱敏实现方法的数据脱敏算法流程图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。本实施例提供了一种基于代理的数据动态快速脱敏实现方法,包括:步骤1,将数据中格式统一的数据单独拆分出来,得到拆分字典集合;所述格式统一的数据包括11位数字数据、2位汉字数据、3位汉字数据、多余10个字符的文本数据中的多种。步骤2,对所述拆分字典集合中的敏感信息进行分类与识别,得到敏感数据;所述敏感信息包括身份证号、手机号、银行卡号、姓名、社保号码中的多种。步骤3,基于脱敏算法对所述敏感数据进行动态脱敏,在动态脱敏过程中将敏感数据类别与每个敏感数据类别下的数据数量,进行负载均衡处理,以使动态脱敏的效率达到最高。该基于代理的数据动态快速脱敏实现方法,可用于对敏感数据的脱敏工作,实现在数据被访问时,进行快速动态脱敏,为构建安全可信的数据使用环境奠定了坚实的基础。下面对本专利技术作进一步详细说明。如图1所示的整体流程图,该方法包括数据的动态拆分、归类及脱敏过程。参图2所示,数据的动态拆分算法,是对数据的一种拆解,旨在将数据拆分开来,实现快速分类与有针对性的脱敏。即将数据中,格式统一的数据单独拆分出来,包括:11位数字数据、2位汉字数据、3位汉字数据、多于10个字符的文本数据等。为后续有针对性的脱敏处理,做好充分准备。具体步骤包括:(1)将数据进行整体划分,即区分出文字、数字、英文字母三种;(2)针对上述划分结果,统计每一段的长度,并将长度与划分结果进行组合,如“3位汉字”、“11位数字”、“10以下英文字母”等,将划分结果作为拆分字典的key;(3)将数据存入其格式所对应的key下,得到拆分字典集合。参图3所示,数据的归类算法,是将数据拆分后的结果,即拆分字典集合,进行归类与识别,包括常见的敏感信息:身份证号、手机号、银行卡号、姓名、社保号码等,并对其做好标记。参图4所示,数据的脱敏算法,是指将归类后的敏感数据,有针对性的使用脱敏算法进行动态脱敏。将敏感数据类别与每个敏感数据类别下的数据数量,进行有效的负载均衡处理,使动态脱敏的效率达到最高。具体步骤包括:(1)统计敏感字段的数量,记为M;统计每种敏感字段下数据的总数量,累计结果,记为N;(2)将每一个敏感字段与之对应的数据,放至待处理库;(3)初始化M/2条异步线程,为其设置如下状态:每条线程每次处理该敏感数据时,只处理N/M条数据,不足时不取其他类别;并将其置为空闲状态;(4)当某条线程处于空闲状态时,去待处理去库中取一个的敏感字段进行脱敏处理,直至该敏感字段下所有数据全部处理完毕,将该敏感字段及其数据移出待处理库。以上所述仅是本专利技术的优选实施方式,并不用于限制本专利技术,应当指出,对于本
的普通技术人员来说,在不脱离本专利技术技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本专利技术的保护范围。本文档来自技高网
...

【技术保护点】
1.一种基于代理的数据动态快速脱敏实现方法,其特征在于,包括:步骤1,将数据中格式统一的数据单独拆分出来,得到拆分字典集合;所述格式统一的数据包括11位数字数据、2位汉字数据、3位汉字数据、多余10个字符的文本数据中的多种;步骤2,对所述拆分字典集合中的敏感信息进行分类与识别,得到敏感数据;所述敏感信息包括身份证号、手机号、银行卡号、姓名、社保号码中的多种;步骤3,基于脱敏算法对所述敏感数据进行动态脱敏,在动态脱敏过程中将敏感数据类别与每个敏感数据类别下的数据数量,进行负载均衡处理,以使动态脱敏的效率达到最高。

【技术特征摘要】
1.一种基于代理的数据动态快速脱敏实现方法,其特征在于,包括:步骤1,将数据中格式统一的数据单独拆分出来,得到拆分字典集合;所述格式统一的数据包括11位数字数据、2位汉字数据、3位汉字数据、多余10个字符的文本数据中的多种;步骤2,对所述拆分字典集合中的敏感信息进行分类与识别,得到敏感数据;所述敏感信息包括身份证号、手机号、银行卡号、姓名、社保号码中的多种;步骤3,基于脱敏算法对所述敏感数据进行动态脱敏,在动态脱敏过程中将敏感数据类别与每个敏感数据类别下的数据数量,进行负载均衡处理,以使动态脱敏的效率达到最高。2.根据权利要求1所述的基于代理的数据动态快速脱敏实现方法,其特征在于,所述步骤1包括:将数据进行整体划分,区分出文字、数字、...

【专利技术属性】
技术研发人员:杨国玉白西让
申请(专利权)人:中国大唐集团科学技术研究院有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1