一种基于数据挖掘的敏感数据动态识别方法技术

技术编号：5290380 阅读：550 留言：0更新日期：2012-04-11 18:40

一种基于数据挖掘的敏感数据动态识别方法。当各种数据需要进行网络传输、终端处理时，需要判断当前待传输或处理的业务数据是否敏感，根据敏感程度结合管理策略来决定业务数据是否可以进行网络传输等各种操作。通过对现有的敏感数据文档进行分词、量化和归一化处理，得到该敏感数据文档的特征词－文档矩阵，利用主成分分析法对特征词－文档矩阵进行降维，得到降维后的特征词－文档矩阵，再基于ＢＰ神经网络对降维后的特征词－文档矩阵进行分类建模，得到敏感数据识别模型，对待识别的文档进行分词、量化、归一化和降维处理后代入敏感数据识别模型中进行识别计算，判断出待识别的文档是否为敏感数据。用于解决数据防泄漏中敏感数据动态识别的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种敏感数据动态识别的方法。主要用于解决企业中敏感数据的动态准确的识别，为敏感数据泄漏保护提供支撑。属于信息安全软件领域。
技术介绍
数据的保密性、完整性和可用性关系到国家的安全、企业的核心竞争力、个人的隐私，数据安全，作为信息安全领域中的重要课题，正越来越受到关注。数据安全涵盖了防泄露、防丢失、防滥用三个方面，其中，数据防泄漏是当前尤为突出的热点问题。电子邮件、即时通讯、可移动存储介质的广泛应用，在提升人们工作效率的同时，也不可避免地扩展了数据泄漏的通道，尤其是主动泄密行为，其泄漏途径更是纷繁复杂。面对这样的严峻形势，国内外安全厂商纷纷推出自己的解决方案，目标就是确保数据的安全，防止数据被有意和无意的非法窃取和丢失。敏感数据泄漏事关国家安全和社会稳定，其防泄漏产品是信息安全的基础性产品，无论从国家安全的高度来看，还是从经济发展的角度来看，敏感数据防泄漏都变得日益重要。敏感数据防泄漏的关键技术主要包括敏感数据识别、敏感数据标记、敏感数据阻断与销毁和策略管理等，其中敏感数据识别是敏感数据防泄漏解决方案中非常关键的一环，只有准确地识别出了敏感数据才能对这些数据进行有效保护。因此研究一种能够准确并高效地识别敏感数据的方法能够更好地提高敏感数据防泄漏方案的能力，具有重要的意义。敏感数据识别主要考虑如下几方面的问题(1)敏感数据和待识别文档的预处理；(2)敏感数据动态识别模型的建立。对于敏感数据动态识别而言，首先就是要对敏感数据和待识别文档进行分词、量化和归一化处理，得到敏感数据和待识别文档对应的特征词-文档矩阵，然后...

【技术保护点】
一种基于数据挖掘的敏感数据动态识别方法，其特征就在于，包括以下步骤为：步骤１：流程开始输入敏感数据文档和待识别的文档这两类文档，前者是用于敏感数据识别模型的训练数据，后者由敏感数据识别模型进行运算得出是否为敏感数据文档；步骤２：对文档进行分词处理，使用中文电子词典将文档中的汉字串与词典中的字符串相匹配，匹配采用逆向最大匹配的方法，从右往左对文档的汉字串进行匹配直到找到最长的匹配，将最后匹配成功的汉字串作为文档的特征词汇；步骤３：对分词处理后文档中的特征词汇进行统计运算，生成特征词－文档矩阵，记录分词后的特征词在文档中出现的频率；步骤４：采用向量空间模型对特征词－文档矩阵进行向量化处理，构造出文本特征向量；步骤５：计算文本特征向量的协方差矩阵和该协方差矩阵的特征值及特征向量；步骤６：根据主成分分析法的定义计算出各特征值的贡献率及累积贡献率，并根据累积贡献率选择对应的特征值计算出主成分，同时计算出文档特征向量空间的主成分后，确定各文档特征分量在各主成分在上的载荷，最后得到降维后的主成分分量来代替原来特征向量空间；步骤７：根据步骤１中的两类文档来选择是否对敏感数据识别模型进行训练；如果是则转...

【技术特征摘要】

【专利技术属性】
技术研发人员：林为民，张涛，邓松，费稼轩，秦超，邵志鹏，楚杰，陈亚东，
申请(专利权)人：国网电力科学研究院，
类型：发明
国别省市：84

全部详细技术资料下载我是这个专利的主人