一种基于数据挖掘的敏感数据动态识别方法技术

技术编号:5290380 阅读:550 留言:0更新日期:2012-04-11 18:40
一种基于数据挖掘的敏感数据动态识别方法。当各种数据需要进行网络传输、终端处理时,需要判断当前待传输或处理的业务数据是否敏感,根据敏感程度结合管理策略来决定业务数据是否可以进行网络传输等各种操作。通过对现有的敏感数据文档进行分词、量化和归一化处理,得到该敏感数据文档的特征词-文档矩阵,利用主成分分析法对特征词-文档矩阵进行降维,得到降维后的特征词-文档矩阵,再基于BP神经网络对降维后的特征词-文档矩阵进行分类建模,得到敏感数据识别模型,对待识别的文档进行分词、量化、归一化和降维处理后代入敏感数据识别模型中进行识别计算,判断出待识别的文档是否为敏感数据。用于解决数据防泄漏中敏感数据动态识别的问题。

【技术实现步骤摘要】

本专利技术涉 及一种敏感数据动态识别的方法。主要用于解决企业中敏感数据的动 态准确的识别,为敏感数据泄漏保护提供支撑。属于信息安全软件领域。
技术介绍
数据的保密性、完整性和可用性关系到国家的安全、企业的核心竞争力、个人 的隐私,数据安全,作为信息安全领域中的重要课题,正越来越受到关注。数据安全涵盖了防泄露、防丢失、防滥用三个方面,其中,数据防泄漏是当前 尤为突出的热点问题。电子邮件、即时通讯、可移动存储介质的广泛应用,在提升人们 工作效率的同时,也不可避免地扩展了数据泄漏的通道,尤其是主动泄密行为,其泄漏 途径更是纷繁复杂。面对这样的严峻形势,国内外安全厂商纷纷推出自己的解决方案, 目标就是确保数据的安全,防止数据被有意和无意的非法窃取和丢失。敏感数据泄漏事关国家安全和社会稳定,其防泄漏产品是信息安全的基础性产 品,无论从国家安全的高度来看,还是从经济发展的角度来看,敏感数据防泄漏都变得 日益重要。敏感数据防泄漏的关键技术主要包括敏感数据识别、敏感数据标记、敏感数 据阻断与销毁和策略管理等,其中敏感数据识别是敏感数据防泄漏解决方案中非常关键 的一环,只有准确地识别出了敏感数据才能对这些数据进行有效保护。因此研究一种能 够准确并高效地识别敏感数据的方法能够更好地提高敏感数据防泄漏方案的能力,具有 重要的意义。敏感数据识别主要考虑如下几方面的问题(1)敏感数据和待识别文档的预处 理;(2)敏感数据动态识别模型的建立。对于敏感数据动态识别而言,首先就是要对敏 感数据和待识别文档进行分词、量化和归一化处理,得到敏感数据和待识别文档对应的 特征词-文档矩阵,然后对特征词_文档矩阵中进行降维处理,再对降维后的敏感数据文 档进行训练,得到敏感数据动态识别模型。最后将待识别的文档输入到敏感数据动态识 别模型中进行动态识别。
技术实现思路
本专利技术的目的是提供一种基于数据挖掘的敏感数据识别方法,来解决数据防泄 漏方案中敏感数据的识别问题,通过使用本方法可以实现对企业数据中心中存储的敏感 数据的自动、准确和高效的识别。为了实现上述专利技术目的,本专利技术采用的是一种数据挖掘的方法,通过对已知的 敏感数据文档向量化和特征提取,组成敏感数据训练样本集,使用BP神经网络来训练学 习出一个敏感数据识别模型,最终使用该BP神经网络模型来识别敏感数据。该模型还可 以在使用过程中通过不断地学习来提高识别的准确度。,包括以下步骤为步骤1:流程开始输入敏感数据文档和待识别的文档这两类文档,前者是用于 敏感数据识别模型的训练数据,后者由敏感数据识别模型进行运算得出是否为敏感数据 文档;步骤2:对文档进行分词处理,使用中文电子词典将文档中的汉字串与词典中 的字符串相匹配,匹配采用逆向最大匹配的方法,从右往左对文档的汉字串进行匹配直 到找到最长的匹配,将最后匹配成功的汉字串作为文档的特征词汇;步骤3 对分词处理后文档中的特征词汇进行统计运算,生成特征词_文档矩 阵,记录分词后的特征词在文档中出现的频率;步骤4:采用向量空间模型对特征词_文档矩阵进行向量化处理,构造出文本特 征向量;步骤5 计算文本特征向量的协方差矩阵和该协方差矩阵的特征值及特征向 量;步骤6:根据主成分分析法的定义计算出各特征值的贡献率及累积贡献率,并 根据累积贡献率选择对应的特征值计算出主成分,同时计算出文档特征向量空间的主成 分后,确定各文档特征分量在各主成分在上的载荷,最后得到降维后的主成分分量来代 替原来特征向量空间;步骤7 根据步骤1中的两类文档来选择是否对敏感数据识别模型进行训练;如 果是则转到步骤8,否则转到步骤13 ;步骤8:根据预处理后的敏感数据训练样本集参数,初始化BP神经网络,包括 BP神经网络的输入层、隐层和输出层神经元的个数及各神经元的权值和阈值;步骤9 由BP神经网络来对训练数据集进行运算;步骤10 计算BP神经网络的输出向量和预先定义文档敏感级别向量之间的误 差,如果误差超过阈值,则转到步骤11,否则转到步骤14;步骤11 调整BP神经网络隐层中神经元个数及其权值,转到步骤9 ;步骤12 输出一个BP神经网络敏感数据识别模型;步骤13 根据步骤12得到的敏感数据识别模型,对待识别的文档进 行动态识 另IJ,并输出动态识别结果;步骤14 敏感数据识别结束。本专利技术的有益效果在于提出了,主 要用于解决数据防泄漏中敏感数据动态识别的问题,通过使用本专利技术中提出的方法可以 快速识别出当前用户操作的数据是否为敏感数据,便于结合策略管理来阻断敏感数据的 泄漏。附图说明图1是敏感数据识别组成结构图。主要包括敏感数据动态识别器、敏感数据 识别操作核心、文本预处理控制器和敏感数据动态识别控制器。图2是参考体系结构示意图。表示本专利技术方法包括的组件。图3是本专利技术方法的流程示意图。具体实施例方式体系结构图1给出了基于数据挖掘的敏感数据识别方法的组成结构图,它主要包括四个部分敏感数据识别模型训练器、敏感数据识别操作核心、文本预处理控制器和敏感数 据动态识别控制器。图中的敏感数据操作核心包括了在文档被预处理过后对文档集中的 敏感数据进行识别的所有具体操作。本专利技术增加的其它三个部分是用来保证使用数据挖 掘的方法进行敏感数据识别的辅助模块,能够保证敏感数据识别更加顺利有效地进行。下面给出这四个部分的具体介绍敏感数据动态识别器在该专利技术中进行敏感数据识别主要是使用BP神经网络作 为识别敏感数据的模型,通过该模型来完成对敏感数据的动态识别,本专利技术中由敏感数 据识别器来完成模型的建立、训练以及使用模型对敏感数据进行识别。敏感数据识别操作核心该部分是在其他三个部分的辅助下完成敏感数据识别 具体操作的核心部分,通过将预处理过的文档以多个分向量的方式作为一个识别模型的 输入,由该模型来计算文档的敏感程度作为模型的输出从而达到动态识别敏感数据的效果。文本预处理控制器由文本分词器提取出来的各敏感关键词的频度并不能直接 作为敏感数据识别操作核心中敏感数据识别模型的输入,需要将其量化,使用向量空间 模型表示出来,并且为了消除各文档词汇集合中词汇量不同所造成的敏感词汇频度统计 上的差异还需要由文本向量处理器来对向量空间模型中各向量进行标准化处理。敏感数据动态识别控制器在该专利技术中,需要通过BP神经网络的方法来得到一 个敏感数据的识别模型。该敏感数据识别模型使用敏感数据训练样本集通过BP神经网络 训练得到,同时将待识别的文档输入到该模型中得到相应的敏感数据类型,故需要一个 控制器来区分是训练用的已知包含敏感数据的文档还是待识别的文档。本专利中对敏感 数据动态识别控制的具体实现不做任何限制。方法流程1、文本预处理控制器文本属于非结构化的数据,对可能包含敏感数据的文档进行识别时首先需要对 文档进行预处理将其转化为可处理的结构化形式,它把从文本中抽取出的特征词进行量 化来表示文本信息,将文档从无结构的原始文本转化为结构化的计算机可识别和处理的 信息,这样就可以由计算机挖掘和识别文本中的一些有用信息。目前对文本的预处理需要考虑如下的几个问题1)有具体的分词方法,对敏感 数据进行分词处理,将文档中有独立含义的词汇统计出来;2)对分词处理后的词汇统计 信息这种离散值进行处理,用结构化的形式表示;3)对从不同结构的文本中统计本文档来自技高网
...

【技术保护点】
一种基于数据挖掘的敏感数据动态识别方法,其特征就在于,包括以下步骤为:步骤1:流程开始输入敏感数据文档和待识别的文档这两类文档,前者是用于敏感数据识别模型的训练数据,后者由敏感数据识别模型进行运算得出是否为敏感数据文档;步骤2:对文档进行分词处理,使用中文电子词典将文档中的汉字串与词典中的字符串相匹配,匹配采用逆向最大匹配的方法,从右往左对文档的汉字串进行匹配直到找到最长的匹配,将最后匹配成功的汉字串作为文档的特征词汇;步骤3:对分词处理后文档中的特征词汇进行统计运算,生成特征词-文档矩阵,记录分词后的特征词在文档中出现的频率;步骤4:采用向量空间模型对特征词-文档矩阵进行向量化处理,构造出文本特征向量;步骤5:计算文本特征向量的协方差矩阵和该协方差矩阵的特征值及特征向量;步骤6:根据主成分分析法的定义计算出各特征值的贡献率及累积贡献率,并根据累积贡献率选择对应的特征值计算出主成分,同时计算出文档特征向量空间的主成分后,确定各文档特征分量在各主成分在上的载荷,最后得到降维后的主成分分量来代替原来特征向量空间;步骤7:根据步骤1中的两类文档来选择是否对敏感数据识别模型进行训练;如果是则转到步骤8,否则转到步骤13;步骤8:根据预处理后的敏感数据训练样本集参数,初始化BP神经网络,包括BP神经网络的输入层、隐层和输出层神经元的个数及各神经元的权值和阈值;步骤9:由BP神经网络来对训练数据集进行运算;步骤10:计算BP神经网络的输出向量和预先定义文档敏感级别向量之间的误差,如果误差超过阈值,则转到步骤11,否则转到步骤14;步骤11:调整BP神经网络隐层中神经元个数及其权值,转到步骤9;步骤12:输出一个BP神经网络敏感数据识别模型;步骤13:根据步骤12得到的敏感数据识别模型,对待识别的文档进行动态识别,并输出动态识别结果;步骤14:敏感数据识别结束。...

【技术特征摘要】

【专利技术属性】
技术研发人员:林为民张涛邓松费稼轩秦超邵志鹏楚杰陈亚东
申请(专利权)人:国网电力科学研究院
类型:发明
国别省市:84

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1