结构化敏感数据识别方法及装置制造方法及图纸

技术编号：38212796 阅读：8 留言：0更新日期：2023-07-25 11:20

本公开的实施例提供了一种结构化敏感数据识别方法及装置。所述方法包括对待识别词进行属性简单匹配；生成属性简单匹配失败的结构化数据集的词向量；将所述词向量投入预先训练得到的TabNet敏感数据识别模型，输出词汇对应的敏感度。以此方式，解决了当前敏感数据识别方法中，样本数据不平衡导致过拟合的问题以及GAN只学习一种或几种数据流形导致的模型崩溃问题。问题。问题。

全部详细技术资料下载

【技术实现步骤摘要】
结构化敏感数据识别方法及装置

[0001]本公开涉及信息安全领域，尤其涉及结构化敏感数据识别

技术介绍

[0002]随着信息技术的飞速发展，信息安全问题逐渐备受关注，而且多起信息安全事故给个人和社会带来了非常严重的影响，尤其是敏感数据的泄露，甚至能直接影响国家安全。
[0003]目前，敏感数据防泄漏的关键技术包括：敏感数据识别、敏感数据标记、敏感数据阻断、销毁和策略管理等。其中敏感数据识别是敏感数据防泄漏方案的前提，也会其中最重要的环节，只有精准的识别出敏感数据才能防止这些敏感数据泄露。
[0004]早期的敏感数据识别技术通常采用关键词匹配的方法，首先需要数据分析师根据其主观意识筛选出敏感数据的关键词，作为词表和识别的依据，然后根据多模匹配算法将待测文本与词表进行比对，并根据事先设定的阈值来判断待测文本是否含有敏感数据，若大于阈值，则还有敏感数据，否则，没有敏感数据。多模匹配算法以AC(Aho
‑
Corasick)算法为代表，该算法通过有限状态机将字符比较转化为状态转移，从而完成对字符串的匹配。但该方法识别精度低，在数据字典不完整或建立有误的情况下，容易造成敏感数据查找失败。
[0005]对于敏感数据的识别，目前主要是基于文本的识别。基于文本的识别算法主要有三种:第一种是基于概率和信息理论的分类算法，如朴素贝叶斯算法(naive bayes，NB)，最大熵算法；第二种是基于标准的Rocchio分类算法的TF
‑
IDF权值计算方法，如包括TF
>‑
IDF算法，KNN等；第三种是基于知识学习的算法，如支持向量机(support vector machine，VSM)算法，循环神经网络模型(Recurrent Neural Network,RNN)的算法等。
[0006]其中，基于知识学习的算法，是随着机器学习理论、深度学习理论的进步逐步发展的一类识别方法。
[0007]例如，基于BERT模型和K近邻的敏感信息识别方法，如图1所示，主要包括文本预处理、基于BERT向量化、构建近似最邻近搜索图、识别待测文本四部分。其中文本预处理即将每条文本进行去噪处理，并将文本标注为敏感信息、非敏感信息；基于BERT向量化即将敏感信息的文本和非敏感信息的文本输入至经压缩的BERT模型中，得到多条敏感信息的向量表征和多条非敏感信息的向量表征；构建近似最邻近搜索图即将敏感信息的向量表征为正类数据、以非敏感信息的向量表征为负类数据，构建基于近似最近邻搜索算法的近似最邻近搜索图并保存；识别待测文本即将待测文本的向量表征输入至近似最邻近搜索图，搜索得到近似最近邻的K个节点，判断节点属性及根据该条待测文本的敏感度权重，修正其敏感度值后，判断是否为敏感信息。
[0008]上述方法主要存在两个缺点：
[0009]1.由于现实样本数据中的敏感数据相对于非敏感数据而来属于极少数，因此存在样本不平衡问题，存在极小数据问题，从而容易导致模型容易过拟合，即模型不仅仅容易在训练集上出现过拟合的问题，而且也可能在验证集上出现过拟合问题，最终造成模型的稳定性降低。
[0010]2.构建近似最邻近搜索图的过程中需要进行大量的向量距离计算，从而导致极大的计算开销。除此之外，在需要向向量集合中增加新的向量时，通常需要对搜索图进行重新构建，从而严重影响了向量的插入效率。

技术实现思路

[0011]本公开提供了一种结构化敏感数据识别方法、设备以及存储介质。
[0012]根据本公开的第一方面，提供了一种结构化敏感数据识别模型的训练方法。该方法包括：获取结构化数据集，对所述结构化数据集进行预处理；对预处理后的结构化数据集进行属性简单匹配，分别生成属性简单匹配成功的结构化数据的词向量和属性简单匹配失败的结构化数据的词向量；将所述属性简单匹配成功的结构化数据的词向量投入基于IMP_GAN的敏感数据生成模块进行敏感数据生成；利用生成的所述敏感数据与所述结构化数据集的词向量进行混合，作为TabNet敏感识别模型的训练样本，对所述TabNet敏感数据识别模型进行训练。
[0013]根据本公开的第二方面，提供了一种结构化敏感数据识别方法，所述方法包括对待识别词进行属性简单匹配；生成属性简单匹配失败的结构化数据集的词向量；将所述词向量投入根据上述方法预先训练得到的TabNet敏感数据识别模型，输出词汇对应的敏感度。
[0014]根据本公开的第三方面，提供了一种结构化敏感数据识别装置，包括：属性简单匹配模块410，用于对待识别词进行属性简单匹配；向量生成模块420，用于生成属性简单匹配失败的结构化数据集的词向量；敏感度识别模块430，用于将所述词向量投入根据上述方法预先训练得到的TabNet敏感数据识别模型，输出词汇对应的敏感度。
[0015]根据本公开的第四方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。
[0016]根据本公开的第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本公开的第一方面和/或第二方面的方法。
[0017]应当理解，
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
[0018]结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案，不构成对本公开的限定在附图中，相同或相似的附图标记表示相同或相似的元素，其中：
[0019]图1示出了现有技术中基于BERT模型和K近邻的敏感信息识别方法的流程图；
[0020]图2示出了根据本公开的实施例的结构化敏感数据识别模型的训练方法的流程图；
[0021]图3示出了根据本公开的实施例的结构化敏感数据识别方法的流程图；
[0022]图4示出了根据本公开的实施例的结构化敏感数据识别装置的框图；
[0023]图5示出了能够实施本公开的实施例的示例性电子设备的方框图。
具体实施方式
[0024]为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。
[0025]另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
[0026]图2示出了根据本公开实施例的结构化敏感数据识别模型的训练方法200的流程图。...

【技术保护点】

【技术特征摘要】
1.一种结构化敏感数据识别模型的训练方法，包括：获取结构化数据集，对所述结构化数据集进行预处理；对预处理后的结构化数据集进行属性简单匹配，分别生成属性简单匹配成功的结构化数据的词向量和属性简单匹配失败的结构化数据的词向量；将所述属性简单匹配成功的结构化数据的词向量投入基于IMP_GAN的敏感数据生成模块进行敏感数据生成；利用生成的所述敏感数据与所述结构化数据集的词向量进行混合，作为TabNet敏感识别模型的训练样本，对所述TabNet敏感数据识别模型进行训练。2.根据权利要求1所述的方法，其中，所述预处理包括：属性敏感度计算、标签拼接和敏感度阈值确定。3.根据权利要求2所述的方法，其中，所述对预处理后的结构化数据集进行属性简单匹配包括：针对属性名的关键字匹配以及针对属性值的正则表达式匹配。4.根据权利要求3所述的方法，其中，所述基于IMP_GAN的敏感数据生成模块为基于IMP_GAN的生成式对抗网络的生成模型。5.根据权利要求1所述的方法，其中，所述生成模型为多个，采用皮尔逊相关系数来迫使不同的生成模型学习不一样的流形。6.根据权利要求1所述的方法，其中，利用生成的所述敏感数据与所述结构化数据集的词向量进行混合，作为TabNet敏感识别模型的训练样本，包括：将基于IMP_GAN的敏感数据生成模块生成的敏感数据和...

【专利技术属性】
技术研发人员：孙燕杰，孔维玉，袁开国，付海涛，司大鹏，石明磊，陆毅远，
申请(专利权)人：上海速丰通联科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人