一种政务大数据脱敏处理方法及装置制造方法及图纸

技术编号:20075690 阅读:30 留言:0更新日期:2019-01-15 00:49
本发明专利技术公开了一种政务大数据脱敏处理方法及装置,将政务大数据的数据实体进行序列化转化为XML序列化对象,遍历读取XML序列化对象得到各个字段节点,通过预置的数据脱敏规则将各个字段节点的敏感数据依次进行数据脱敏,有很强的兼容性,能够方便的进行跨系统、跨平台测试运行,支持现有的数据库中的敏感数据直接脱敏不需要进行改变现有的数据库存储规则,能够实现跨系统、在不同的平台间的数据脱敏、保障企业及公民的隐私信息安全性与可靠性。

A Desensitization Processing Method and Device for Government Big Data

The invention discloses a method and device for desensitization processing of big government data. The data entity of big government data is serialized into an XML serialized object, and each field node is obtained by reading the XML serialized object. The sensitive data of each field node is desensitized sequentially by preset data desensitization rules, which has strong compatibility and can be conveniently crossed. The system and cross-platform test run can support the direct desensitization of sensitive data in existing databases without changing the existing database storage rules. It can realize data desensitization across systems and between different platforms, and guarantee the privacy, information security and reliability of enterprises and citizens.

【技术实现步骤摘要】
一种政务大数据脱敏处理方法及装置
本公开涉及大数据信息安全领域,具体涉及一种政务大数据脱敏处理方法及装置。
技术介绍
政务大数据广泛分布在教育、企业管理、社保、民政、安全等多个方向的领域,政务大数据的数量大,且多源异构、隐私性与机密性强、附加价值高,因为数据的受众广泛、互联网环境复杂混乱,所以企业及公民的隐私信息外泄和被爬虫软件抓取、泄露的风险很大,而且与泄露的隐私相关的隐私信息很容易导致泄露,数据的安全稳定性难以控制。政务大数据脱敏是指对政务大数据中某些敏感信息(如:统一社会信用代码、企业名称、用户名称、身份证号码、电话号码、邮箱号、银行卡号、IP地址、联系地址)通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的数据,现有的方法中均无法实现跨系统、在不同的平台间的数据脱敏。
技术实现思路
为解决上述问题,本公开提供一种政务大数据脱敏处理方法及装置,将政务大数据的数据实体进行序列化转化为XML序列化对象,能够实现跨系统、在不同的平台间的数据脱敏、保障企业及公民的隐私信息安全。为了实现上述目的,根据本公开的一方面,提供一种政务大数据脱敏处理方法,所述方法包括以下步骤:步骤1,读取政务大数据的数据实体;步骤2,将政务大数据的数据实体进行序列化转化为XML序列化对象;步骤3,遍历读取XML序列化对象得到各个字段节点;步骤4,通过预置的数据脱敏规则将各个字段节点的敏感数据依次进行数据脱敏。进一步地,在步骤1中,所述政务大数据的数据实体至少包括统一社会信用代码、企业名称、用户名称、身份证号码、电话号码、邮箱号、银行卡号、IP地址、联系地址。进一步地,在步骤2中,将政务大数据的数据实体进行序列化转化为XML序列化对象包括以下子步骤,步骤2.1,根据政务大数据的数据实体统一社会信用代码或身份证号码创建XML文件的根节点对象,并将该根节点对象插入XML文件的文档对象中,其中,如果政务大数据为企业信息则以统一社会信用代码作为XML文件的根节点对象,如果政务大数据为自然人信息则以身份证号码作为XML文件的根节点对象;步骤2.2,判断政务大数据的数据实体中是否还有下一行数据,如果存在下一行数据,转至步骤2.3,如果不存在下一行数据,转至步骤2.7;步骤2.3,获得政务大数据的数据实体中的数据实体名,设为T,创建以T为元素名的父节点对象,所述数据实体名为统一社会信用代码、企业名称、用户名称、身份证号码、电话号码、邮箱号、银行卡号、IP地址、联系地址;步骤2.4,判断政务大数据的数据实体中是否还有下一个数据实体名,如果存在下一个数据实体名,设为第x个数据实体名,从政务大数据的数据实体中取出存在下一个数据实体名的行中第x个数据值,定义为y,转至步骤2.5继续执行;如果不存在下一个数据实体名,将父节点对象插入根节点对象中,并将y存储到数组A中,转至步骤2.2继续执行,所述数组A,即数组A[i][j]为20行20列的数组,i、j范围为0~19;步骤2.5,创建以数据实体名为元素名的子节点对象;并将数据实体名与数组A中第一列的数据进行比对,如果数组A的第一列数据中没有与数据实体名相匹配的数据,则以y作为子节点的文本值,插入子节点对象中,转至步骤2.7;若数组A的第一列数据中存在相匹配的数据,转至步骤2.6继续执行;步骤2.6,将创建的子节点对象插入父节点对象中,转至步骤2.7继续执行;步骤2.7,得到XML序列化对象。进一步地,在步骤3中,遍历读取XML序列化对象得到各个字段节点的遍历方法为深度优先搜索,所述XML序列化对象由多个字段节点组成,字段节点之间的结构为树状结构或者线性结构。例如,树状结构的XML序列化对象中BaseInfo字段节点为根节点,与根节点连接的第二层节点由多个Person节点组成,与第二层的Person节点连接的第三层节点又包括Name、Age、Clients节点,与第三层的Clients节点连接的第四层节点又包括中多个Book构成,与第四层的Clients节点连接的第五层节点在Book中又包括ISBN和Title,即每层能够有多个节点与上一层的其中一个节点进行连接。例如,线性结构的XML序列化对象中BaseInfo字段节点为根节点,第二层节点由一个Person子节点构成,与第二层的Person节点连接的第三层节点由一个Clients节点构成,与第三层的Clients节点连接的第四层节点由一个Book组成,与第四层的Clients节点连接的第五层节点由一个Title组成,即每层只有一个节点与上一层连接。进一步地,在步骤4中,通过预置的数据脱敏规则将各个字段节点的敏感数据依次进行数据脱敏的方法为:步骤4.1,根据预置的数据脱敏规则设定的敏感数据类型判断字段节点的数据是否属于敏感数据;所述预置的数据脱敏规则为统一社会信用代码、身份证号码、电话号码的数据生成规则,设定统一社会信用代码、身份证号码、电话号码为敏感数据类型。步骤4.2,按照变换规则替换敏感数据类型的字段节点的数据,直到XML序列化对象中所有敏感信息键-值对的敏感字段替换完毕;所述变换规则属于现有技术中的任何一种,如直接替换、变位替换,所谓直接替换就是用新生字段直接替换敏感字段,所谓变位替换就是将新生字段的位置变换打乱以后替换敏感字段,例如对于身份证号,可以将新生字段的身份证号的第一位数字和第二位数字换位以后再替换敏感字段的身份证号。本专利技术还提供了一种政务大数据脱敏处理装置,所述装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在所述装置的以下单元中:数据实体读取单元,用于读取政务大数据的数据实体;序列化单元,用于将政务大数据的数据实体进行序列化转化为XML序列化对象;节点遍历单元,用于遍历读取XML序列化对象得到各个字段节点;数据脱敏单元,用于通过预置的数据脱敏规则将各个字段节点的敏感数据依次进行数据脱敏。本公开的有益效果为:本专利技术提供一种政务大数据脱敏处理方法及装置,有很强的兼容性,能够方便的进行跨系统、跨平台测试运行,支持现有的数据库中的敏感数据直接脱敏不需要进行改变现有的数据库存储规则,能够实现跨系统、在不同的平台间的数据脱敏、保障企业及公民的隐私信息安全性与可靠性。附图说明通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:图1所示为一种政务大数据脱敏处理方法的流程图;图2所示为一种政务大数据脱敏处理装置图。具体实施方式以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本公开的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。如图1所示为根据本公开的一种政务大数据脱敏处理方法的流程图,下面结合图1来阐本文档来自技高网...

【技术保护点】
1.一种政务大数据脱敏处理方法,其特征在于,所述方法包括以下步骤:步骤1,读取政务大数据的数据实体;步骤2,将政务大数据的数据实体进行序列化转化为XML序列化对象;步骤3,遍历读取XML序列化对象得到各个字段节点;步骤4,通过预置的数据脱敏规则将各个字段节点的敏感数据依次进行数据脱敏。

【技术特征摘要】
1.一种政务大数据脱敏处理方法,其特征在于,所述方法包括以下步骤:步骤1,读取政务大数据的数据实体;步骤2,将政务大数据的数据实体进行序列化转化为XML序列化对象;步骤3,遍历读取XML序列化对象得到各个字段节点;步骤4,通过预置的数据脱敏规则将各个字段节点的敏感数据依次进行数据脱敏。2.根据权利要求1所述的一种政务大数据脱敏处理方法,其特征在于,在步骤1中,所述政务大数据的数据实体至少包括统一社会信用代码、企业名称、用户名称、身份证号码、电话号码、邮箱号、银行卡号、IP地址、联系地址。3.根据权利要求1所述的一种政务大数据脱敏处理方法,其特征在于,在步骤2中,将政务大数据的数据实体进行序列化转化为XML序列化对象包括以下子步骤,步骤2.1,根据政务大数据的数据实体统一社会信用代码或身份证号码创建XML文件的根节点对象,并将该根节点对象插入XML文件的文档对象中,其中,如果政务大数据为企业信息则以统一社会信用代码作为XML文件的根节点对象,如果政务大数据为自然人信息则以身份证号码作为XML文件的根节点对象;步骤2.2,判断政务大数据的数据实体中是否还有下一行数据,如果存在下一行数据,转至步骤2.3,如果不存在下一行数据,转至步骤2.7;步骤2.3,获得政务大数据的数据实体中的数据实体名,设为T,创建以T为元素名的父节点对象,所述数据实体名为统一社会信用代码、企业名称、用户名称、身份证号码、电话号码、邮箱号、银行卡号、IP地址、联系地址;步骤2.4,判断政务大数据的数据实体中是否还有下一个数据实体名,如果存在下一个数据实体名,设为第x个数据实体名,从政务大数据的数据实体中取出存在下一个数据实体名的行中第x个数据值,定义为y,转至步骤2.5继续执行;如果不存在下一个数据实体名,将父节点对象插入根节点对象中,并将y存储到数组A中,转至步骤2.2继续执行,所述数组A,即数组A[i][j]为20行20列的数组,i、j范围为0~19;步骤2.5,创建以数据实体名为元素名的子节点对象;并将数据实体名与数组A中第一...

【专利技术属性】
技术研发人员:马莉
申请(专利权)人:佛山科学技术学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1