一种基于大数据的敏感数据识别方法及系统技术方案

技术编号:37080090 阅读:37 留言:0更新日期:2023-03-29 19:55
本发明专利技术的目的是提供一种基于大数据的敏感数据识别方法及系统,涉及数据识别技术领域,获取企业文本数据;构建企业文本数据的文本特征向量和词向量矩阵;将文本特征向量和词向量矩阵输入到敏感数据识别模型中,确定敏感识别结果;敏感识别结果包括企业文本数据是否存在敏感数据,以及敏感数据的种类和分布位置;敏感数据识别模型是利用企业文本历史标注数据对卷积神经网络进行训练得到的;本发明专利技术通过构建文本特征向量、词向量矩阵和敏感数据识别模型,能够准确识别敏感数据以及敏感数据的种类和分布位置,以便后续根据敏感数据的种类和分布位置采取不同的资产保护措施,进而完成数据资产保护。数据资产保护。数据资产保护。

【技术实现步骤摘要】
一种基于大数据的敏感数据识别方法及系统


[0001]本专利技术涉及数据识别
,特别是涉及一种基于大数据的敏感数据识别方法及系统。

技术介绍

[0002]随着大数据时代的到来,各类信息资产已经成为企业的核心资产,但目前这些数据基本处于“裸奔”状态,面临数据泄露的威胁。面对频发的数据安全事件和愈来愈严格的数据安全保护要求,企业虽然都已认识到数据安全保护的重要性,但企业无法确定自己有哪些敏感数据、敏感数据都是什么级别和类型、敏感数据分布在哪里等问题,只有解决这些问题,才能够进一步考虑如何去有针对性地保护这些敏感数据,因此快速发现并识别敏感数据成为数据资产保护的首要任务。

技术实现思路

[0003]本专利技术的目的是提供一种基于大数据的敏感数据识别方法及系统,能够准确识别敏感数据,进而完成数据资产保护。
[0004]为实现上述目的,本专利技术提供了如下方案:
[0005]一种基于大数据的敏感数据识别方法,包括:
[0006]获取企业文本数据;
[0007]构建所述企业文本数据的文本特征向量;
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的敏感数据识别方法,其特征在于,包括:获取企业文本数据;构建所述企业文本数据的文本特征向量;构建所述企业文本数据的词向量矩阵;将所述文本特征向量和词向量矩阵输入到敏感数据识别模型中,确定敏感识别结果;所述敏感识别结果包括企业文本数据是否存在敏感数据,以及敏感数据的种类和分布位置;所述敏感数据识别模型是利用企业文本历史标注数据对卷积神经网络进行训练得到的。2.根据权利要求1所述的一种基于大数据的敏感数据识别方法,其特征在于,在所述获取企业文本数据之前,还包括:获取多个企业文本历史数据;标注每个企业文本历史数据中的敏感数据,确定企业文本历史数据中的敏感标注结果;所述敏感标注结果包括企业文本历史数据是否存在敏感数据,以及敏感数据的种类和分布位置;构建每个企业文本历史数据对应的历史文本特征向量和历史词向量矩阵;构建初始卷积神经网络;所述初始卷积神经网络包括依次连接的输入层、卷积层、最大池化层、全连接层和标识输出层;以历史文本特征向量和历史词向量矩阵为输入,以敏感标注结果为输出,对所述初始卷积神经网络进行训练,得到敏感数据识别模型。3.根据权利要求2所述的一种基于大数据的敏感数据识别方法,其特征在于,所述构建所述企业文本数据的文本特征向量,包括:将所述企业文本数据进行分词处理,得到词序列;根据简化规则对所述词序列进行简化处理,得到简化词序列;所述简化规则为删除词序列中词性为虚词、连接词或停用词的词语;计算简化词序列中每个词语的TF

IDF特征值;连接简化词序列对应的多个TF

IDF特征值,得到文本特征向量。4.根据权利要求3所述的一种基于大数据的敏感数据识别方法,其特征在于,所述TF

IDF特征值为:d
i
=t
i
×
log(N/n
j
);其中,d
i
表示简化词序列中第i个词语的TF

IDF特征值;t
i
表示简化词序列中第i个词语在企业文本数据中的出现次数,N表示企业文本历史数据的总个数,n
j
表示不包括简化词序列中第i个词语的企业文本历史数据的个数。5.一种基于大数据的敏感数据识别系统,其特征在于,包括:企业文本数据获取模块,用于获取企业文本数据;文本特征向量构建模块,用于构建所述企业文本数据的文本特征向量;词向量矩阵构...

【专利技术属性】
技术研发人员:陈青民郑敏波张文敏马天宁白旭东周喜东
申请(专利权)人:北京安信天行科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1