一种基于深度学习的敏感识别方法及系统技术方案

技术编号：37546640 阅读：9 留言：0更新日期：2023-05-12 16:20

本发明专利技术提供了一种基于深度学习的敏感识别方法及系统，其方法包括：S1：基于用户设置的每个敏感等级的所有字段属性集合，生成每个敏感等级的每个字段属性的初始模型；S2：利用用户上传的每个敏感等级的每个字段属性的样本数据，对初始模型进行训练并测试，获得测试结果；S3：基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型；S4：将待识别数据库中的所有数据表输入至所有最终敏感识别模型，获得每个敏感等级的每个字段属性的敏感数据作为最终敏感识别结果；用以将深度学习和敏感识别结合，使得用户只需上传样本数据，即可自动深度学习并训练测试出符合要求的敏感识别模型，与传统的敏感识别方式相比，识别准确率和效率都有所提高。确率和效率都有所提高。确率和效率都有所提高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的敏感识别方法及系统

[0001]本专利技术涉及敏感识别
，特别涉及一种基于深度学习的敏感识别方法及系统。

技术介绍

[0002]目前，在数据安全中，需要对数据库中的数据进行敏感识别，识别出不同敏感等级的字段数据，进而进行标签化或者二次处理，传统的敏感识别是基于规则的，如黑白名单、正则表达式等。此类方法对于简单的敏感识别任务比较适用。
[0003]但当数据量较大，敏感规则复杂的场景，配置黑白名单，制定正则表达式将是一件很繁琐、很低效，甚至于无法完成的任务，例如，对姓名字段属性的数据进行敏感识别时，传统的正则表达式和黑白名单无法定义姓名的字段数据，所以，无法完成敏感识别任务。
[0004]因此，本专利技术提出一种基于深度学习的敏感识别方法及系统。

技术实现思路

[0005]本专利技术提供一种基于深度学习的敏感识别方法及系统，用以将深度学习和敏感识别结合，使得用户只需上传样本数据，即可自动深度学习并训练测试出符合要求的敏感识别模型，与传统的敏感识别方式相比，识别准确率和效率都有所提高。
[0006]本专利技术提供一种基于深度学习的敏感识别方法，包括：
[0007]S1：基于用户设置的每个敏感等级的所有字段属性集合，生成每个敏感等级的每个字段属性的初始模型；
[0008]S2：利用用户上传的每个敏感等级的每个字段属性的样本数据，对初始模型进行训练并测试，获得测试结果；
[0009]S3：基于测试结果获得每个敏感等级的每个字段属性的最终敏感...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的敏感识别方法，其特征在于，包括：S1：基于用户设置的每个敏感等级的所有字段属性集合，生成每个敏感等级的每个字段属性的初始模型；S2：利用用户上传的每个敏感等级的每个字段属性的样本数据，对初始模型进行训练并测试，获得测试结果；S3：基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型；S4：将待识别数据库中的所有数据表输入至所有最终敏感识别模型，获得每个敏感等级的每个字段属性的敏感数据作为最终敏感识别结果。2.根据权利要求1所述的一种基于深度学习的敏感识别方法，其特征在于，S2：利用用户上传的每个敏感等级的每个字段属性的样本数据，对初始模型进行训练并测试，获得测试结果，包括：S201：将用户上传的每个敏感等级的每个字段属性的样本数据划分为训练样本和测试样本；S202：利用训练样本训练对应敏感等级的对应字段属性的初始模型，获得每个敏感等级的每个字段属性的敏感识别模型；S203：基于测试样本测试对应敏感等级的对应字段属性的敏感识别模型，获得测试结果。3.根据权利要求2所述的一种基于深度学习的敏感识别方法，其特征在于，S201：将用户上传的每个敏感等级的每个字段属性的样本数据划分为训练样本和测试样本，包括：获取包含用户上传的每个敏感等级的每个字段属性的样本数据中的所有第一子样本数据的所有完整数据表，并将每个完整数据表中包含的样本数据中的所有第一子样本数据进行标记，获得多个样本标记数据表；对所有样本数据表进行排序，获得样本数据表的第一序数，基于统一排序方式对所有样本数据表中包含的单位数据进行排序，获得每个样本数据表中每个第一子样本数据的第二序数；基于每个样本数据表的第一序数和每个样本数据表中每个第一子样本数据的第二序数，生成样本数据中所有第一子样本数据的第一序列；基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数，获得每个敏感等级的每个字段属性的初始样本数据；将初始样本数据划分为训练样本和测试样本。4.根据权利要求2所述的一种基于深度学习的敏感识别方法，其特征在于，基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数，获得每个敏感等级的每个字段属性的初始样本数据，包括：基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻前一第一子样本数据的第二序数以及对应第一子样本数据的第二序数，生成对应第一子样本数据的第一三维分布坐标；基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻后一第一子样本数据的第二序数以及对应第一子样本数据的第二序数，生成对应第一子样本数据的第二三维分布坐标；
基于第一三维分布坐标和第二三维分布坐标，获得每个敏感等级的每个字段属性的初始样本数据。5.根据权利要求4所述的一种基于深度学习的敏感识别方法，其特征在于，基于第一三维分布坐标点和第二三维坐标点，获得每个敏感等级的每个字段属性的初始样本数据，包括：基于第一三维分布坐标和第二三维分布坐标生成对应第一子样本数据的第一位置分布特征向量；将第一位置分布特征向量和用户上传的每个敏感等级的每个字段属性的样本数据中的每个第一子样本数据进行对应绑定，获得每个敏感等级的每个字段属性的初始样本数据。6.根据权利要求2所...

【专利技术属性】
技术研发人员：金震，张京日，穆宇浩，
申请(专利权)人：北京三维天地科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人