一种基于流式处理的数据脱敏系统及其脱敏方法技术方案

技术编号:19219670 阅读:667 留言:0更新日期:2018-10-20 08:11
本发明专利技术涉及网络信息通信安全领域,具体涉及一种基于流式处理的数据脱敏系统及其脱敏方法。本发明专利技术通过以下技术方案得以实现的:一种基于流式处理的数据脱敏系统,包含用于获取数据的获取模块、对数据进行脱敏处理的脱敏模块和将脱敏后的数据发出的发送模块,还包含有:缓存模块;判断模块,所述判断模块用于判断目前收到的一个或一个以上的数据包是否包含完整的记录行,并将收集到的一个或一个以上的数据包存储在所述缓存模块中。本发明专利技术的目的是提供一种基于流式处理的数据脱敏系统及其脱敏方法,与现有技术不同,采用流式的方式对服务器发送来的数据进行脱敏处理,避免需要大容量的存储空间进行数据缓存,数据脱敏速度快,改善时延问题。

【技术实现步骤摘要】
一种基于流式处理的数据脱敏系统及其脱敏方法
本专利技术涉及网络信息通信安全领域,具体涉及一种基于流式处理的数据脱敏系统及其脱敏方法。
技术介绍
随着时代的进步,互联网通信及其应用催生并承载着大数据时代。相比传统数据,大数据具有应用数据流通量大、速度高、类型多的特点,使得互联网成为一个开放的复杂系统,不仅给人们的通信带来方便,也相应的承载着复杂和未知的问题,这其中就包括网络安全的威胁和风险。在大数据的处理领域,数据的存储和流通环节的数据安全问题成为了人们关注的焦点之一,在这种背景下,人们开始使用数据脱敏技术。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。在现有技术中,数据脱敏的实现方法为:首先,缓存需要脱敏的数据包,如果当前数据包为完整的协议包,则根据设置的规则对数据进行转换;随后,完成一个脱敏过程,如果数据包不是完整的协议包,就继续缓存数据,直至缓存的数据能够组成完整的协议包,再根据设置的规则对缓存的数据进行转换。然而,这样的技术方案存在着一定的缺陷。缺陷一:脱敏过程中需要的缓存大小不可预期。由于脱敏之前可能需要缓存数据,缓存数据的多少和具体的数据库查询方式有关,事前无法预期。当多个脱敏工作进行中时,系统现有的存储空间可能会无法满足需要而导致系统无法继续正常工作。缺陷二:实时响应差。需要先缓存所有数据,缓存结束之后进行数据脱敏后才能返回结果,而这一对所有数据进行缓存和对大量数据进行脱敏的方式需要耗费大量时间,因此会导致返回的脱敏数据存在时延问题。
技术实现思路
本专利技术的目的是提供一种基于流式处理的数据脱敏系统及其脱敏方法,与现有技术不同,采用流式的方式对服务器发送来的数据进行脱敏处理,避免需要大容量的存储空间进行数据缓存,数据脱敏速度快,改善时延问题。本专利技术的上述技术目的是通过以下技术方案得以实现的:一种基于流式处理的数据脱敏系统,包含用于获取数据的获取模块、对数据进行脱敏处理的脱敏模块和将脱敏后的数据发出的发送模块,还包含有:缓存模块;判断模块,所述判断模块用于判断目前收到的一个或一个以上的数据包是否包含完整的记录行,并将收集到的一个或一个以上的数据包存储在所述缓存模块中。作为本专利技术的优选,所述脱敏模块包含提取模块、映射模块和替换模块,所述提取模块用于查找和提取数据中的敏感数据和与所述敏感数据对应的目标脱敏规则,所述映射模块用于在映射关系中查找与所述目标脱敏规则所对应的目标数据字典,所述替换模块用于将所述目标数据字典对相对应的所述敏感数据进行替换处理。作为本专利技术的优选,当所述判断模块判断一个完整的记录行存在于一个数据包中,所述脱敏模块直接对该数据包进行脱敏处理。作为本专利技术的优选,当所述判断模块判断一个完整的记录行存在于两个或两个以上的数据包中,先由合并模块将这两个或两个以上的数据包进行拼接,随后所述脱敏模块再对合并后的记录行数据进行脱敏。作为本专利技术的优选,当所述判断模块判断一个数据包中既存在前一个记录行的部分数据又存在下一个记录行的部分数据,则先有合并模块将该数据包和之前包含前一个记录行的所有数据包进行拼接,随后脱敏,脱敏后发送模块只发出该数据包之前所有包含前一个记录行的所有数据包。一种基于流式处理的数据脱敏系统的脱敏方法,包括以下步骤:步骤一:抓包步骤,在该步骤中,获取模块逐个获取来自服务器发送来的数据包,且缓存在缓存模块中;步骤二:判断步骤,在该步骤中,判断模块对于数据包是否拥有完整的记录行进行判断,若有完整的记录行,则进入下一步骤,若没有,则继续抓取数据包,直至拥有完整的记录行;步骤三:脱敏步骤,在该步骤中,脱敏模块对步骤二中获取到的拥有完整的记录行的数据包进行脱敏处理;步骤四:数据发送步骤,发送模块将脱敏后的数据发送给客户端。作为本专利技术的优选,在步骤二中,当前获取到的一个数据包就包含了一个完整的记录行,则脱敏模块直接对该数据包进行脱敏处理,随后由发送模块发送给客户端。作为本专利技术的优选,在步骤二中,当前获取到的一个数据包未包含一个完整的记录行,则继续由获取模块抓取下一个数据包,直至判断模块判断出当前抓取的所有数据包包含了一个完整的记录行,随后,合并模块对拼接这些构成一个完整记录行的所有数据包,拼接后进行数据脱敏和发送。作为本专利技术的优选,在步骤二中,当前获取到的一个数据包未包含一个完整的记录行,则继续由获取模块抓取下一个数据包,直至判断模块判断出当前抓取的所有数据包包含了一个完整的记录行,当最后一个数据包既包含有当前记录行数据,又包含有下一个记录行数据时,合并模块合并第一个数据包到最后一个数据包进行合并并且脱敏,但保留最后一个数据包不被发送,之前所有的数据包由发送模块发送给客户端。综上所述,本专利技术具有如下有益效果:1、本技术方案采用流式脱敏的技术,只需要缓存到完整的记录行就可以操作,对缓存容量的要求小。2、脱敏操作效率高,延时少。附图说明:图1是实施例1的示意图;图2是图1中数据脱敏系统的具体示意图。图中。具体实施方式以下结合附图对本专利技术作进一步详细说明。本具体实施例仅仅是对本专利技术的解释,其并不是对本专利技术的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本专利技术的权利要求范围内都受到专利法的保护。实施例1,如图1所示,包含上方的服务器端和下方的客户端。客户端的具体实现形式可以是PC电脑、笔记本电脑、IPAD、智能手机、平板电脑等设备,这里不做具体限制。首先由客户端发送数据请求给数据脱敏系统,数据脱敏系统直接将数据请求发送给服务器端,服务器解读了该数据请求之后,就将对应的原始数据发送给数据脱敏系统,数据脱敏系统根据一定的规则对数据进行数据脱敏之后,再将脱敏后的数据发送给客户端。具体的,如图2所示,客户端发送给数据脱敏系统的数据包都是逐个发送,如packet1、packet2、packet3…packetN,发送过来的数据包是逐个缓存在缓存模块中的。与现有技术不同的是,在本技术方案中,需要由判断模块去判断记录行的完整情况,此时就会有至少三种情况。情况一、第一个获取到的数据包packet1本身就包含有了完整的记录行,此时,直接对这个数据包packet1直接进行脱敏处理,随后通过发送模块发送给客户端。情况二、第一个获取到的数据包packet1只是包含了记录行的一部分,该记录行的其余数据存在后续的packet[2-N]中,例如,存在于packet2、packet3、和packet4中,此时,合并模块就将所有的数据包,即packet1到packet4的数据进行平结,随后对合并的记录数据进行脱敏,最后分别发送packet1到packet4脱敏后的数据包。由于一个记录行,往往包含有多个字段,这些字段也并不一定存在于一个数据包内,于是就会产生上文中的现象。情况三、与情况二的区别是最后一个数据包中,不止包含前一个记录行的字段,也包含下一个记录行的部分字段。例如,packet1、packet2、packet3中都存在记录行A的数据。而packet4中不仅存在一部分记录行本文档来自技高网
...

【技术保护点】
1.一种基于流式处理的数据脱敏系统,包含用于获取数据的获取模块、对数据进行脱敏处理的脱敏模块和将脱敏后的数据发出的发送模块,其特征在于;还包含有: 缓存模块; 判断模块,所述判断模块用于判断目前收到的一个或一个以上的数据包是否包含完整的记录行,并将收集到的一个或一个以上的数据包存储在所述缓存模块中。

【技术特征摘要】
1.一种基于流式处理的数据脱敏系统,包含用于获取数据的获取模块、对数据进行脱敏处理的脱敏模块和将脱敏后的数据发出的发送模块,其特征在于;还包含有:缓存模块;判断模块,所述判断模块用于判断目前收到的一个或一个以上的数据包是否包含完整的记录行,并将收集到的一个或一个以上的数据包存储在所述缓存模块中。2.根据权利要求1所述的一种基于流式处理的数据脱敏系统,其特征在于:所述脱敏模块包含提取模块、映射模块和替换模块,所述提取模块用于查找和提取数据中的敏感数据和与所述敏感数据对应的目标脱敏规则,所述映射模块用于在映射关系中查找与所述目标脱敏规则所对应的目标数据字典,所述替换模块用于将所述目标数据字典对相对应的所述敏感数据进行替换处理。3.根据权利要求1所述的一种基于流式处理的数据脱敏系统,其特征在于:当所述判断模块判断一个完整的记录行存在于一个数据包中,所述脱敏模块直接对该数据包进行脱敏处理。4.根据权利要求1所述的一种基于流式处理的数据脱敏系统,其特征在于:当所述判断模块判断一个完整的记录行存在于两个或两个以上的数据包中,先由合并模块将这两个或两个以上的数据包进行拼接,随后所述脱敏模块再对合并后的记录行数据进行脱敏。5.根据权利要求1所述的一种基于流式处理的数据脱敏系统,其特征在于:当所述判断模块判断一个数据包中既存在前一个记录行的部分数据又存在下一个记录行的部分数据,则先有合并模块将该数据包和之前包含前一个记录行的所有数据包进行拼接,随后脱敏,脱敏后发送模块只发出该数据包之前所有包含前一个记录行的所有数据包。6.根据权利要求1所述的一种基于流式处理的数据脱敏系统的脱敏...

【专利技术属性】
技术研发人员:张黎邹开红詹金凯肖增辉
申请(专利权)人:杭州闪捷信息科技股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1