一种基于深度学习的敏感识别方法及系统技术方案

技术编号:37546640 阅读:9 留言:0更新日期:2023-05-12 16:20
本发明专利技术提供了一种基于深度学习的敏感识别方法及系统,其方法包括:S1:基于用户设置的每个敏感等级的所有字段属性集合,生成每个敏感等级的每个字段属性的初始模型;S2:利用用户上传的每个敏感等级的每个字段属性的样本数据,对初始模型进行训练并测试,获得测试结果;S3:基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型;S4:将待识别数据库中的所有数据表输入至所有最终敏感识别模型,获得每个敏感等级的每个字段属性的敏感数据作为最终敏感识别结果;用以将深度学习和敏感识别结合,使得用户只需上传样本数据,即可自动深度学习并训练测试出符合要求的敏感识别模型,与传统的敏感识别方式相比,识别准确率和效率都有所提高。确率和效率都有所提高。确率和效率都有所提高。

【技术实现步骤摘要】
一种基于深度学习的敏感识别方法及系统


[0001]本专利技术涉及敏感识别
,特别涉及一种基于深度学习的敏感识别方法及系统。

技术介绍

[0002]目前,在数据安全中,需要对数据库中的数据进行敏感识别,识别出不同敏感等级的字段数据,进而进行标签化或者二次处理,传统的敏感识别是基于规则的,如黑白名单、正则表达式等。此类方法对于简单的敏感识别任务比较适用。
[0003]但当数据量较大,敏感规则复杂的场景,配置黑白名单,制定正则表达式将是一件很繁琐、很低效,甚至于无法完成的任务,例如,对姓名字段属性的数据进行敏感识别时,传统的正则表达式和黑白名单无法定义姓名的字段数据,所以,无法完成敏感识别任务。
[0004]因此,本专利技术提出一种基于深度学习的敏感识别方法及系统。

技术实现思路

[0005]本专利技术提供一种基于深度学习的敏感识别方法及系统,用以将深度学习和敏感识别结合,使得用户只需上传样本数据,即可自动深度学习并训练测试出符合要求的敏感识别模型,与传统的敏感识别方式相比,识别准确率和效率都有所提高。
[0006]本专利技术提供一种基于深度学习的敏感识别方法,包括:
[0007]S1:基于用户设置的每个敏感等级的所有字段属性集合,生成每个敏感等级的每个字段属性的初始模型;
[0008]S2:利用用户上传的每个敏感等级的每个字段属性的样本数据,对初始模型进行训练并测试,获得测试结果;
[0009]S3:基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型;
[0010]S4:将待识别数据库中的所有数据表输入至所有最终敏感识别模型,获得每个敏感等级的每个字段属性的敏感数据作为最终敏感识别结果。
[0011]优选的,所述的一种基于深度学习的敏感识别方法,S2:利用用户上传的每个敏感等级的每个字段属性的样本数据,对初始模型进行训练并测试,获得测试结果,包括:
[0012]S201:将用户上传的每个敏感等级的每个字段属性的样本数据划分为训练样本和测试样本;
[0013]S202:利用训练样本训练对应敏感等级的对应字段属性的初始模型,获得每个敏感等级的每个字段属性的敏感识别模型;
[0014]S203:基于测试样本测试对应敏感等级的对应字段属性的敏感识别模型,获得测试结果。
[0015]优选的,所述的一种基于深度学习的敏感识别方法,S201:将用户上传的每个敏感等级的每个字段属性的样本数据划分为训练样本和测试样本,包括:
[0016]获取包含用户上传的每个敏感等级的每个字段属性的样本数据中的所有第一子
样本数据的所有完整数据表,并将每个完整数据表中包含的样本数据中的所有第一子样本数据进行标记,获得多个样本标记数据表;
[0017]对所有样本数据表进行排序,获得样本数据表的第一序数,基于统一排序方式对所有样本数据表中包含的单位数据进行排序,获得每个样本数据表中每个第一子样本数据的第二序数;
[0018]基于每个样本数据表的第一序数和每个样本数据表中每个第一子样本数据的第二序数,生成样本数据中所有第一子样本数据的第一序列;
[0019]基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数,获得每个敏感等级的每个字段属性的初始样本数据;
[0020]将初始样本数据划分为训练样本和测试样本。
[0021]优选的,所述的一种基于深度学习的敏感识别方法,基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数,获得每个敏感等级的每个字段属性的初始样本数据,包括:
[0022]基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻前一第一子样本数据的第二序数以及对应第一子样本数据的第二序数,生成对应第一子样本数据的第一三维分布坐标;
[0023]基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻后一第一子样本数据的第二序数以及对应第一子样本数据的第二序数,生成对应第一子样本数据的第二三维分布坐标;
[0024]基于第一三维分布坐标和第二三维分布坐标,获得每个敏感等级的每个字段属性的初始样本数据。
[0025]优选的,所述的一种基于深度学习的敏感识别方法,基于第一三维分布坐标点和第二三维坐标点,获得每个敏感等级的每个字段属性的初始样本数据,包括:
[0026]基于第一三维分布坐标和第二三维分布坐标生成对应第一子样本数据的第一位置分布特征向量;
[0027]将第一位置分布特征向量和用户上传的每个敏感等级的每个字段属性的样本数据中的每个第一子样本数据进行对应绑定,获得每个敏感等级的每个字段属性的初始样本数据。
[0028]优选的,所述的一种基于深度学习的敏感识别方法,将初始样本数据划分为训练样本和测试样本,包括:
[0029]基于预设比例,将每个敏感等级的每个字段属性的初始样本数据中的正样本数据和负样本数据划分为正训练样本数据和负训练样本数据以及正测试样本数据和负测试样本数据;
[0030]将正训练样本数据和负训练样本数据汇总,获得训练样本;
[0031]将正测试样本数据和负测试样本数据汇总,获得测试样本。
[0032]优选的,所述的一种基于深度学习的敏感识别方法,S203:基于测试样本测试对应敏感等级的对应字段属性的敏感识别模型,获得测试结果,包括:
[0033]将测试样本输入至对应敏感等级的对应字段属性的敏感识别模型中,获得每个敏感等级的每个字段属性的测试敏感识别结果;
[0034]基于用户输入的对测试敏感识别结果的识别正误性判断结果,确定出每个敏感识别模型的测试识别准确率;
[0035]将所有敏感识别模型的测试识别准确率当作测试结果。
[0036]优选的,所述的一种基于深度学习的敏感识别方法,基于用户输入的对测试敏感识别结果的识别正误性判断结果,确定出每个敏感识别模型的测试识别准确率,包括:
[0037]基于用户输入的对测试敏感识别结果的识别正误性判断结果,确定出每个敏感识别模型的测试样本中识别正确的单位数据的第一总数;
[0038]将第一总数和对应敏感识别模型的测试样本中包含的所有单位数据的第二总数的比值作为初始识别准确率;
[0039]确定出每个敏感识别模型的正训练样本数据中每个第一子样本数据的第一位置分布特征向量和每个敏感识别模型的正测试样本数据中每个第一子样本数据的第二位置分布特征向量;
[0040]基于正训练样本数据中所有第一子样本数据在对应的第一序列中的顺序,对所有第一位置分布特征向量进行排序,获得第二序列;
[0041]基于正测试样本数据中所有第一子样本数据在对应的第一序列中的顺序,对所有第二位置分布特征向量进行排序,获得第三序列;
[0042]基于第二序列和第三序列,计算出每个敏感识别模型的正训练样本数据和正测试样本数据中子样本数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的敏感识别方法,其特征在于,包括:S1:基于用户设置的每个敏感等级的所有字段属性集合,生成每个敏感等级的每个字段属性的初始模型;S2:利用用户上传的每个敏感等级的每个字段属性的样本数据,对初始模型进行训练并测试,获得测试结果;S3:基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型;S4:将待识别数据库中的所有数据表输入至所有最终敏感识别模型,获得每个敏感等级的每个字段属性的敏感数据作为最终敏感识别结果。2.根据权利要求1所述的一种基于深度学习的敏感识别方法,其特征在于,S2:利用用户上传的每个敏感等级的每个字段属性的样本数据,对初始模型进行训练并测试,获得测试结果,包括:S201:将用户上传的每个敏感等级的每个字段属性的样本数据划分为训练样本和测试样本;S202:利用训练样本训练对应敏感等级的对应字段属性的初始模型,获得每个敏感等级的每个字段属性的敏感识别模型;S203:基于测试样本测试对应敏感等级的对应字段属性的敏感识别模型,获得测试结果。3.根据权利要求2所述的一种基于深度学习的敏感识别方法,其特征在于,S201:将用户上传的每个敏感等级的每个字段属性的样本数据划分为训练样本和测试样本,包括:获取包含用户上传的每个敏感等级的每个字段属性的样本数据中的所有第一子样本数据的所有完整数据表,并将每个完整数据表中包含的样本数据中的所有第一子样本数据进行标记,获得多个样本标记数据表;对所有样本数据表进行排序,获得样本数据表的第一序数,基于统一排序方式对所有样本数据表中包含的单位数据进行排序,获得每个样本数据表中每个第一子样本数据的第二序数;基于每个样本数据表的第一序数和每个样本数据表中每个第一子样本数据的第二序数,生成样本数据中所有第一子样本数据的第一序列;基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数,获得每个敏感等级的每个字段属性的初始样本数据;将初始样本数据划分为训练样本和测试样本。4.根据权利要求2所述的一种基于深度学习的敏感识别方法,其特征在于,基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数,获得每个敏感等级的每个字段属性的初始样本数据,包括:基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻前一第一子样本数据的第二序数以及对应第一子样本数据的第二序数,生成对应第一子样本数据的第一三维分布坐标;基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻后一第一子样本数据的第二序数以及对应第一子样本数据的第二序数,生成对应第一子样本数据的第二三维分布坐标;
基于第一三维分布坐标和第二三维分布坐标,获得每个敏感等级的每个字段属性的初始样本数据。5.根据权利要求4所述的一种基于深度学习的敏感识别方法,其特征在于,基于第一三维分布坐标点和第二三维坐标点,获得每个敏感等级的每个字段属性的初始样本数据,包括:基于第一三维分布坐标和第二三维分布坐标生成对应第一子样本数据的第一位置分布特征向量;将第一位置分布特征向量和用户上传的每个敏感等级的每个字段属性的样本数据中的每个第一子样本数据进行对应绑定,获得每个敏感等级的每个字段属性的初始样本数据。6.根据权利要求2所...

【专利技术属性】
技术研发人员:金震张京日穆宇浩
申请(专利权)人:北京三维天地科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1