一种敏感数据识别的方法和装置制造方法及图纸

技术编号:13491144 阅读:34 留言:0更新日期:2016-08-07 01:41
本发明专利技术公开了一种敏感数据识别的方法和装置。本发明专利技术的方法包括:基于爬虫原理从数据库表结构中的数据库表中提取变更内容;对提取的变更内容,根据预先制定的敏感字段识别规则识别出敏感字段,并将包含敏感字段的数据标记为疑似敏感数据;根据预先设置的数据类型与业务属性的对应关系,对所述疑似敏感数据依次进行识别。本技术方案通过结合数据库爬虫技术实现对数据库系统的无损探伤,对从数据库表中提取的变更内容根据敏感字段识别规则进行是否为疑似敏感数据的判断,保证敏感数据检测的完整性;并结合预先设置的数据类型与业务属性的对应关系,准确的判断出敏感数据以及敏感数据的数据类型,确保敏感数据识别的准确性。

【技术实现步骤摘要】

本专利技术涉及计算机信息安全
,特别涉及一种对数据库系统中含有的敏感数据识别的方法和装置
技术介绍
随着信息安全技术的不断发展,安全防护逐渐由被动响应向主动防御转变,由事后追溯、事中控制向事前预防方向发展。对于数据安全防护来讲,传统的发生敏感数据泄露后通过审计系统、水印系统等查找发生数据泄露原因的被动防御模式,已经逐渐演进为在敏感数据泄露事件发生前,及时发现敏感数据信息、及时定制敏感数据防护策略、及时监控敏感数据的流转和使用,从源头上降低敏感数据泄露机会的主动防御模式。而及时发现敏感数据信息至关重要,因为该功能可以决定“敏感数据是什么、敏感数据在哪里”的问题,可以帮助安全管理者有的放矢的制定安全防护策略、实施安全防护措施。现有的敏感数据信息发现技术主要是在敏感数据检测和分析过程中首先通过数据库扫描系统等相关功能的设备扫描数据库系统,获取数据库表结构信息,然后提取疑似敏感数据关键字段(比如139、10000元等),通过预先设置的敏感字段识别规则与已经建立的敏感数据词典进行对比,如果吻合,则判断为敏感数据,如果不吻合,则为非敏感数据。现有的敏感数据信息发现技术至少存在以下缺陷:一是数据库表结构的获取方式存在将数据库系统锁死的风险,这对于类似电信运营商的BOSS(Business&OperationSupportSystem,业务运营支撑系统)、CRM(CustomerRelationshipManagement,客户关系管理)等处理大数据量的数据库系统是无法接受的,并且该方式不能全面的检测出发生变更的数据内容;二是现有技术处理逻辑过于死板,没有因敏感数据的业务属性不同,而制定不同的判别规则,比如对于电信运营商而言,详单数据的业务属性和客户资料的业务属性是不同的,即使通过词典对比判断出敏感数据,也无法判断该敏感数据的数据类型。
技术实现思路
本专利技术提供了一种敏感数据识别的方法和装置,能够有效地提高敏感数据检测的准确性。为达到上述目的,本专利技术的技术方案是这样实现的:一方面,本专利技术提供了一种敏感数据识别的方法,包括:基于爬虫原理从数据库表结构中的数据库表中提取变更内容;对提取的变更内容,根据预先制定的敏感字段识别规则识别出敏感字段,并将包含敏感字段的数据标记为疑似敏感数据;根据预先设置的数据类型与业务属性的对应关系,对所述疑似敏感数据依次进行识别,若所述疑似敏感数据的数据类型对应的业务属性的字段全部在该疑似敏感数据包含的敏感字段中,则将该疑似敏感数据标记为敏感数据。优选地,所述基于爬虫原理从数据库表结构中的数据库表中获取变更内容,包括:生成数据库表结构的检测脚本集,由所述检测脚本集组成爬虫工具;采用爬虫工具对数据库表结构中的数据库表进行初始检测,得到第一次输出结果;采用爬虫工具定期循环检测所述数据库表结构中的数据库表,得到以后的每次输出结果;采用爬虫工具对每次输出结果与上一次输出结果的区别进行分析,得到数据库表结构中的数据库表的变更内容。优选地,所述方法还包括:基于爬虫原理对数据库表结构中的数据库表的原始内容进行敏感数据识别。其中预先设置数据类型与业务属性的对应关系包括:预先确定出不同的数据类型包含的全部业务属性,每种业务属性对应一个字段;设置由全部业务属性确定出数据类型的判断规则。优选地,所述方法还包括:根据识别出的敏感字段记录每个敏感数据的各项业务属性;根据全部业务属性确定出数据类型的判断规则,确定出每个敏感数据的数据类型。另一方面,本专利技术提供了一种敏感数据识别的装置,包括:变更内容提取单元,用于基于爬虫原理从数据库表结构中的数据库表中提取变更内容;疑似敏感数据识别单元,用于对提取的变更内容,根据预先制定的敏感字段识别规则识别出敏感字段,并将包含敏感字段的数据标记为疑似敏感数据;敏感数据识别单元,用于根据预先设置的数据类型与业务属性的对应关系,对所述疑似敏感数据依次进行识别,若所述疑似敏感数据的数据类型对应的业务属性的字段全部在该疑似敏感数据包含的敏感字段中,则将该疑似敏感数据标记为敏感数据。优选地,所述变更内容提取单元包括:所述变更内容提取单元包括:脚本生成模块,用于生成数据库表结构的检测脚本集,由所述检测脚本集组成爬虫工具;初始检测模块,用于采用爬虫工具对数据库表结构中的数据库表进行初始检测,得到第一次输出结果;定期检测模块,用于采用爬虫工具定期循环检测所述数据库表结构中的数据库表,得到以后的每次输出结果;变更获取模块,用于采用爬虫工具对每次输出结果与上一次输出结果的区别进行分析,得到数据库表结构中的数据库表的变更内容。优选地,所述装置还包括:识别单元,用于基于爬虫原理对数据库表结构中的数据库表的原始内容进行敏感数据识别。优选地,所述装置还包括:所述敏感数据识别单元包括数据类型与业务属性对应关系的设置模块;所述设置模块,用于预先确定出不同的数据类型包含的全部业务属性,每种业务属性对应一个字段;设置由全部业务属性确定出数据类型的判断规则。本专利技术的有益效果:本专利技术实施例提供了一种敏感数据识别的方法和装置,通过结合数据库爬虫技术实现对数据库系统的无损探伤,从数据库表结构中的数据库表中提取变更内容,对变更的数据内容初步判断出疑似敏感数据,保证敏感数据检测的完整性;在此基础上,进一步结合预先设置的数据类型与业务属性的对应关系,准确的判断出敏感数据以及敏感数据的数据类型,确保敏感数据识别的准确性。附图说明图1为本专利技术实施例提供的敏感数据识别的方法的流程图;图2为本专利技术实施例提供的识别敏感数据流程图;图3为本专利技术实施例提供的敏感数据识别的装置的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。图1为本专利技术提供的敏感数据识别的方法的流程图,包括:步骤S11,基于爬虫原理从数据库表结构中的数据库表中提取变更内容。该步骤具体包括:生成数据库表结构的检测脚本集,由检测脚本集组成爬虫工具;采用爬虫工具对数据库表结构中的数据库表进行初始检测,得到第一次输出结果;采用爬虫工具定期循环检测数据库表结构中的数据库表,得到以后的每次输出结果;采用爬虫工具对每次输出结果与上一次输出结果的区别进行分析,得到数据库本文档来自技高网
...

【技术保护点】
一种敏感数据识别的方法,其特征在于,包括:基于爬虫原理从数据库表结构中的数据库表中提取变更内容;对提取的变更内容,根据预先制定的敏感字段识别规则识别出敏感字段,并将包含敏感字段的数据标记为疑似敏感数据;根据预先设置的数据类型与业务属性的对应关系,对所述疑似敏感数据依次进行识别,若所述疑似敏感数据的数据类型对应的业务属性的字段全部在该疑似敏感数据包含的敏感字段中,则将该疑似敏感数据标记为敏感数据。

【技术特征摘要】
1.一种敏感数据识别的方法,其特征在于,包括:
基于爬虫原理从数据库表结构中的数据库表中提取变更内容;
对提取的变更内容,根据预先制定的敏感字段识别规则识别出敏感字段,
并将包含敏感字段的数据标记为疑似敏感数据;
根据预先设置的数据类型与业务属性的对应关系,对所述疑似敏感数据
依次进行识别,若所述疑似敏感数据的数据类型对应的业务属性的字段全部
在该疑似敏感数据包含的敏感字段中,则将该疑似敏感数据标记为敏感数据。
2.根据权利要求1所述的方法,其特征在于,所述基于爬虫原理从数据
库表结构中的数据库表中获取变更内容,包括:
生成数据库表结构的检测脚本集,由所述检测脚本集组成爬虫工具;
采用爬虫工具对数据库表结构中的数据库表进行初始检测,得到第一次
输出结果;
采用爬虫工具定期循环检测所述数据库表结构中的数据库表,得到以后
的每次输出结果;
采用爬虫工具对每次输出结果与上一次输出结果的区别进行分析,得到
数据库表结构中的数据库表的变更内容。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于爬虫原理对数据库表结构中的数据库表的原始内容进行敏感数据识
别。
4.根据权利要求1所述的方法,其特征在于,其中预先设置数据类型与
业务属性的对应关系包括:
预先确定出不同的数据类型包含的全部业务属性,每种业务属性对应一
个字段;
设置由全部业务属性确定出数据类型的判断规则。
5.根据权利要求4所述的方法,其特征在于,所述的方法进一步包括:
根据识别出的敏感字段记录每个敏感数据的各项业务属性;
根据全部业务属性确定出数据类型的判断规则,确定出每个敏感数据的
数据类型。
6.一种敏感数据识别的装置,其特征在于,包括:
变更内容提取单元,用于基于爬虫原理从数据库表结构中的数据库表中<...

【专利技术属性】
技术研发人员:神征强高峰张建军张威
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1