一种智能化自适应敏感数据识别系统及方法技术方案

技术编号:20363274 阅读:194 留言:0更新日期:2019-02-16 16:42
本发明专利技术提供的自适应的敏感数据识别方式,解决了大数据环境下敏感数据识别存在的问题;本解决了人工定义敏感数据和元数据工作繁重且效率低下的问题,有效提升了敏感数据识别的工作效率;本发明专利技术通过挖掘敏感数据的语义特征,提升了敏感数据识别的准确率;本发明专利技术结合基于文本内容、元数据与知识库三种敏感数据识别方式,优化敏感数据识别流程,提升敏感数据识别的准确率与效率。本发明专利技术提出了敏感类型自适应管理,解决了新的敏感类型增加困难的问题,提升了敏感类型对实际需求的灵活适应程度。

【技术实现步骤摘要】
一种智能化自适应敏感数据识别系统及方法
本专利技术涉及计算机技术与信息安全的交叉
,具体是一种基于大数据的智能化敏感数据识别系统及方法。
技术介绍
在大数据时代,数据规模庞大、增长迅速、类型繁多、结构各异,且描述不规范,且这些数据中包含大量敏感数据,且85%为非结构化数据,这对敏感数据识别的高效性和准确性都提出了巨大的挑战。传统的敏感数据发现方式主要采用基于人工定义及正则表达式两种方式。1、基于人工定义的方式是通过定义关键词或者元数据信息,之后匹配关键词与元数据信息发现业务系统中的敏感数据;2、基于正则表达式的方式是通过研究敏感数据的特征,按照敏感数据的结构组成规律,定义正则表达式,之后依据正则表达式匹配业务系统中的敏感数据。但是随着数据量暴增并且类型越趋复杂,传统的敏感数据发现方式的弊端越来越明显,主要问题如下:1、人工定义敏感关键词及元数据工作越来越繁重,且效率低下;2、部分敏感数据具有结构特征,如身份证号、银行卡号等敏感类型,可以采用正则表达式进行匹配,但是对于没有结构特征的敏感数据,如地址、人名等敏感类型,无法采用正则表达式进行敏感数据发现;3、正则表达式方式需要研究每类敏感数据的特征才能进行敏感数据发现,随着敏感类型增加,正则表达式会越来越多,直接影响到敏感数据发现的效率,且规则库维护困难,浪费资源;4、基于正则表达式和人工定义敏感关键词和元数据仅能识别符合规则及匹配成功的敏感数据,具有敏感语义的敏感数据会遗漏,降低敏感数据识别的准确率,无法防止敏感数据的泄露;5、当敏感需求出现变动时,需要耗费大量时间和精力对新的敏感类型进行修改。因此,在大数据背景下,亟需新的方式来提升敏感数据发现的准确率与效率。
技术实现思路
为了达到上述目的,本专利技术提出一种智能化自适应敏感数据识别系统及方法。本专利技术的一种智能化自适应敏感数据识别系统,包括敏感类型自适应管理模块、基于文本语义的敏感数据识别模块、基于元数据自学习的敏感数据识别模块、基于知识库的智能敏感数据识别模块、敏感知识库与元数据动态配置模块;所述敏感类型自适应管理模块是根据实际场景中对敏感类型的需求自动添加与更新自定义敏感类型和脱敏算法、支持多敏感类型映射为一个敏感类型、支持敏感类型过滤的管理模块;所述基于文本语义的敏感数据识别模块是将敏感数据作为文本内容进行识别、采用基于规则和基于自然语言处理以及语义分析结合的方式自动识别文本中敏感数据的敏感数据识别模块;所述基于元数据自学习的敏感数据识别模块是采用元数据自学习的方式、不断完善敏感数据的元数据信息并依据敏感数据的元数据信息进行敏感数据自动识别的敏感数据识别模块;所述基于知识库的智能敏感数据识别模块是分析敏感数据的特征、构建敏感数据知识库并通过实际应用不断完善、依据知识库信息自动识别敏感数据的敏感实际识别模块;所述敏感知识库与元数据动态配置模块是将敏感知识库与元数据动态配置实现敏感知识库与元数据自动更新的配置模块。其中,所述敏感类型自适应管理模块包括根据实际应用场景中对敏感类型不同定义需求自添加新的敏感数据类型及其对应的脱敏算法的敏感类型自添加模块、将敏感类型进行智能化映射并能根据敏感类型映射关系转换敏感类型的敏感类型映射模块、对敏感数据识别结果进行敏感类型过滤处理提高敏感数据识别准确率的敏感类型过滤模块。本专利技术的一种智能化自适应敏感数据识别方法,包括如下步骤:s1、获取需要进行敏感数据识别的文本;s2、采用基于元数据自学习的敏感数据识别方式识别文本中的敏感数据;s3、判断步骤s2是否识别出敏感类型,若是,转到步骤s4,若否,转到步骤s7;s4、判断识别出的敏感类型是否需要校验,若是,转到步骤s5,若否,转到步骤s9;s5、采用基于文本语义的敏感数据识别方式识别步骤s2中识别出的敏感类型;s6、判断步骤s5是否识别出敏感类型,若是,转到步骤s9,若否,转到步骤s12;s7、采用基于文本语义的敏感数据识别方式识别步骤s1中文本的敏感数据;s8、判断步骤s8是否识别出敏感类型,若是,转到步骤s9,若否,转到步骤s;s9、返回文本包含的敏感数据类型;s10、采用基于知识库的智能敏感数据识别方式识别步骤s1中文本的敏感数据;s11、判断步骤s10中是否识别出敏感类型,若是,转到步骤s9;若否,转到步骤s12;s12、敏感数据识别结束。采用基于文本语义的敏感数据识别方式识别敏感数据包括如下步骤:w1、获取需要进行敏感数据识别的文本;w2、对文本内容特征进行分析,分析文本特征得到分析结果,根据分析结果选择敏感数据识别方式,当文本内容特征明显,且偏向结构化数据时,进入步骤w6;当文本内容比较长,且语义特征明显、结构特征相对较弱时,进入步骤w3;w3、选择基于语义分析与机器学习的敏感数据识别方式对步骤w2中的文本特征分析结果进行敏感数据识别;w4、判断步骤w3中是否识别出敏感类型,若是,转到步骤w5,若否,转到步骤w;w5、返回文本所包含的敏感数据类型;w6、选择基于规则的敏感数据识别方式对步骤w2中的文本特征分析结果进行敏感数据识别;w7、判断步骤w7中是否识别出敏感类型,若是,转到步骤w5,若否,转到不走w8;w8、结束基于文本语义的敏感数据识别。采用基于元数据自学习的敏感数据识别方式识别敏感数据包括如下步骤:y1、获取需要进行敏感数据识别的文本;y2、获取步骤y1中文本的元数据信息;同时进行元数据信息自学习;y3、依据元数据信息判断敏感数据的敏感类型;y4、判断步骤y3中是否识别出敏感类型,若是,转到不止y5,若否,转到步骤y8;y5、判断步骤y4中识别出的敏感类型是否需要校验,若是,转到步骤y6,若否,转到步骤y9;y6、对步骤y5中需要校验的敏感类型采用基于文本语义的敏感数据识别方式进行敏感数据识别;y7、判断不住y6是否识别出敏感类型,若是,转到步骤y(返回);若否,转到步骤y(结束);y8、采用基于文本语义的敏感数据识别方式对需要进行敏感数据识别的文本进行敏感数据识别,并判断是否识别出敏感类型,若是,则识别出敏感类型,转到步骤y9;若否,则继续采用基于知识库的只能敏感数据识别方式对需要进行敏感数据识别的文本进行敏感数据识别,若是识别出敏感类型,转到步骤y(返回),若没有识别出敏感类型,转到步骤y10;y9、返回文本所包含的敏感类型;y10、结束对文本的敏感数据识别。采用基于知识库的智能敏感数据识别方式识别敏感数据包括如下步骤:z1、获取需要进行敏感数据识别的文本;z2、研究不同敏感类型的特征,依据不同敏感类型特征构建敏感类型知识库;z3、根据敏感类型知识库的信息判断步骤z1中的文本包含的敏感数据类型;z4、判断步骤z3是否识别出敏感类型,若是,则返回文本所包含的敏感类型;若否,则敏感数据识别结束。敏感数据识别过程中,对敏感类型进行自适应管理,包括敏感类型自添加、敏感类型映射、敏感类型过滤。敏感类型自添加包括如下步骤:m11、当有心的敏感类型需求或者敏感类型脱敏算法需求时,采用JAR包的形式,将新增的敏感类型及脱敏算法存放至指定位置;m12、利用智能化自适应敏感数据识别系统自动检测JAR所在的位置是否存在更新,若是,转到步骤m13,若否,自动结束流程;m13、将业务动态加载到系统,同时识别新的敏本文档来自技高网
...

【技术保护点】
1.一种智能化自适应敏感数据识别系统,其特征在于,所述智能化自适应敏感数据识别系统包括敏感类型自适应管理模块、基于文本语义的敏感数据识别模块、基于元数据自学习的敏感数据识别模块、基于知识库的智能敏感数据识别模块、敏感知识库与元数据动态配置模块;所述敏感类型自适应管理模块是根据实际场景中对敏感类型的需求自动添加与更新自定义敏感类型和脱敏算法、支持多敏感类型映射为一个敏感类型、支持敏感类型过滤的管理模块;所述基于文本语义的敏感数据识别模块是将敏感数据作为文本内容进行识别、采用基于规则和基于自然语言处理以及语义分析结合的方式自动识别文本中敏感数据的敏感数据识别模块;所述基于元数据自学习的敏感数据识别模块是采用元数据自学习的方式、不断完善敏感数据的元数据信息并依据敏感数据的元数据信息进行敏感数据自动识别的敏感数据识别模块;所述基于知识库的智能敏感数据识别模块是分析敏感数据的特征、构建敏感数据知识库并通过实际应用不断完善、依据知识库信息自动识别敏感数据的敏感实际识别模块;所述敏感知识库与元数据动态配置模块是将敏感知识库与元数据动态配置实现敏感知识库与元数据自动更新的配置模块。

【技术特征摘要】
1.一种智能化自适应敏感数据识别系统,其特征在于,所述智能化自适应敏感数据识别系统包括敏感类型自适应管理模块、基于文本语义的敏感数据识别模块、基于元数据自学习的敏感数据识别模块、基于知识库的智能敏感数据识别模块、敏感知识库与元数据动态配置模块;所述敏感类型自适应管理模块是根据实际场景中对敏感类型的需求自动添加与更新自定义敏感类型和脱敏算法、支持多敏感类型映射为一个敏感类型、支持敏感类型过滤的管理模块;所述基于文本语义的敏感数据识别模块是将敏感数据作为文本内容进行识别、采用基于规则和基于自然语言处理以及语义分析结合的方式自动识别文本中敏感数据的敏感数据识别模块;所述基于元数据自学习的敏感数据识别模块是采用元数据自学习的方式、不断完善敏感数据的元数据信息并依据敏感数据的元数据信息进行敏感数据自动识别的敏感数据识别模块;所述基于知识库的智能敏感数据识别模块是分析敏感数据的特征、构建敏感数据知识库并通过实际应用不断完善、依据知识库信息自动识别敏感数据的敏感实际识别模块;所述敏感知识库与元数据动态配置模块是将敏感知识库与元数据动态配置实现敏感知识库与元数据自动更新的配置模块。2.根据权利要求1所述的一种智能化自适应敏感数据识别系统,其特征在于,所述敏感类型自适应管理模块包括根据实际应用场景中对敏感类型不同定义需求自添加新的敏感数据类型及其对应的脱敏算法的敏感类型自添加模块、将敏感类型进行智能化映射并能根据敏感类型映射关系转换敏感类型的敏感类型映射模块、对敏感数据识别结果进行敏感类型过滤处理提高敏感数据识别准确率的敏感类型过滤模块。3.一种智能化自适应敏感数据识别方法,其特征在于,包括如下步骤:s1、获取需要进行敏感数据识别的文本;s2、采用基于元数据自学习的敏感数据识别方式识别文本中的敏感数据;s3、判断步骤s2是否识别出敏感类型,若是,转到步骤s4,若否,转到步骤s7;s4、判断识别出的敏感类型是否需要校验,若是,转到步骤s5,若否,转到步骤s9;s5、采用基于文本语义的敏感数据识别方式识别步骤s2中识别出的敏感类型;s6、判断步骤s5是否识别出敏感类型,若是,转到步骤s9,若否,转到步骤s12;s7、采用基于文本语义的敏感数据识别方式识别步骤s1中文本的敏感数据;s8、判断步骤s8是否识别出敏感类型,若是,转到步骤s9,若否,转到步骤s;s9、返回文本包含的敏感数据类型;s10、采用基于知识库的智能敏感数据识别方式识别步骤s1中文本的敏感数据;s11、判断步骤s10中是否识别出敏感类型,若是,转到步骤s9;若否,转到步骤s12;s12、敏感数据识别结束。4.根据权利要求3所述的一种智能化自适应敏感数据识别方法,其特征在于,采用基于文本语义的敏感数据识别方式识别敏感数据包括如下步骤:w1、获取需要进行敏感数据识别的文本;w2、对文本内容特征进行分析,分析文本特征得到分析结果,根据分析结果选择敏感数据识别方式,当文本内容特征明显,且偏向结构化数据时,进入步骤w6;当文本内容比较长,且语义特征明显、结构特征相对较弱时,进入步骤w3;w3、选择基于语义分析与机器学习的敏感数据识别方式对步骤w2中的文本特征分析结果进行敏感数据识别;w4、判断步骤w3中是否识别出敏感类型,若是,转到步骤w5,若否,转到步骤w;w5、返回文本所包含的敏感数据类型;w6、选择基于规则的敏感数据识别方式对步骤w2中的文本特征分析结果进行敏感数据识别;w7、判断步骤w7中是否识别出敏感类型,若是,转到步骤w5,若否,转到不走w8;w8、结束基于文本语义的敏感数据识别。5.根据权利要求4所述的一种智能化自适应敏感数据识别方法,其特征在于,采用基于元数据自...

【专利技术属性】
技术研发人员:陈天莹李霄
申请(专利权)人:中国电子科技网络信息安全有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1