一种敏感数据发现与识别的深度学习方法及系统技术方案

技术编号:34984976 阅读:39 留言:0更新日期:2022-09-21 14:29
本发明专利技术公开了一种敏感数据发现与识别的深度学习方法及系统,所述方法包括以下步骤:S1:触发训练机制,获取训练数据;S2:对用户纠正后的推理结果数据进行评估,获得评估的结果;S3:加载历史规则模型和历史深度学习模型;S4:进行深度学习模型的迭代训练,直至模型稳定收敛,生成新的模型集;S5:获取推理数据;S6:使用训练得到的模型集及推理数据做算法推理,获得结果反馈给用户;S7:用户对结果进行纠正打标,产生的新样本用于评估及训练部分的使用,本发明专利技术可以对不同的类型的数据进行全面的敏感数据识别,有效提高识别准确率。有效提高识别准确率。有效提高识别准确率。

【技术实现步骤摘要】
一种敏感数据发现与识别的深度学习方法及系统


[0001]本专利技术涉及数据安全治理及自然语言处理的深度学习领域,尤其涉及一种数据治理场景下敏感数据发现与识别的深度学习方法及系统。

技术介绍

[0002]随着企业信息化水平的不断提高,数据共享与开放对企业发展的作用日益凸显,数据已成为重要生产要素之一,企业在产业与服务、营销支持、业务运营、风险管控、信息披露和分析决策等经营管理活动中涉及到大量的业务数据,其中可能会包含企业的商业秘密、工作秘密,以及员工的隐私信息等,若因为使用不当,造成数据泄露,则有可能造成巨大的经济损失或在社会、法律、信用、品牌上对企业造成严重的不良影响。因此,如何保障企业存储的各类敏感数据的安全,提前预警并消除风险就成为企业信息安全工作的重中之重。
[0003]现有的敏感字段识别方法主要包含以下几种:1、基于关键字的方法:根据定义的关键字去直接进行匹配,得到结果缺点:(1)难以定义完全,很大程度上可能会导致漏报(2)过于简单粗暴,对于多类别的字段,很难准确合理划分2、基于规则的方法:根据数据的格式,定义正则式去直接匹配,得到结果缺点:(1)难以定义完全,很大程度上可能会导致漏报(2)灵活性差3、基于机器学习的方法:利用从数据中学习到的知识做新数据的预测缺点:(1)需要有大批量、高质量的标注数据(2)泛化能力不足,对新业务数据的适应能力弱(3)不能进行自我优化、自我学习。
[0004]基于以上种种原因,综合考虑上述方法的优缺点,本专利技术实现了一种快速且高度自动化的敏感数据识别方法,可以实现对敏感信息的检测、分类等目标。

技术实现思路

[0005]针对现有技术存在的问题,本专利技术的目的在于实现一种快速且高度自动化的敏感数据治理方法及系统,能够实现对敏感信息的检测、分类等目标,可以对不同的类型的数据进行全面的敏感数据识别,有效提高识别准确率。
[0006]为实现上述目的,本专利技术提供一种敏感数据发现与识别的深度学习方法,所述方法包括以下步骤:S1:触发训练机制,获取训练数据;S2:对用户纠正后的推理结果数据进行评估,获得评估的结果;
S3:加载历史规则模型和历史深度学习模型;S4:进行深度学习模型的迭代训练,直至模型稳定收敛,生成新的模型集;S5:获取推理数据;S6:使用训练得到的模型集及推理数据做算法推理,获得结果反馈给用户;S7:用户对结果进行纠正打标,产生的新样本用于评估及训练部分的使用。
[0007]进一步,步骤S1中,训练数据包括至少一种敏感信息实例及其对应的标签,敏感信息包括姓名、职业、地域和国籍信息。
[0008]进一步,步骤S2中,对数据进行全面的分类评估,包括精确率、准确率、召回率和F1值指标的macro宏观和micro微观结果,也包括单独类别下的精确率、准确率、召回率和F1值评估指标结果。
[0009]进一步,步骤S2中的评估步骤具体包括:S21:分别对基于历史模型得到的分类结果、基于规则模型得到的分类结果、基于深度学习模型得到的分类结果及综合上述三个模型的分类结果加权获得的综合分类结果去计算macro宏观精确率、准确率、召回率和F1值,具体计算参见下述公式;S22:分别对基于历史模型得到的分类结果、基于规则模型得到的分类结果、基于深度学习模型得到的分类结果及综合上述三个模型的分类结果加权获得的综合分类结果去计算micro微观精确率、准确率、召回率和F1值,具体计算参见下述公式;S23:计算每个类别下的精确率、准确率、召回率和F1值,具体计算参见下述公式。
[0010]精确率、召回率、准确率及F1值的概念以及计算方式为:(1)精确率(Precision):也叫查准率,即正确预测为正类的数量占全部预测为正类的数量的比例。公式如下所示:其中,TP为真正例,即实际为正样本模型也预测为正样本的数量;FP为假正例,即实际为负样本模型预测为正样本的数量;(2)召回率(Recall):也叫查全率,即正确预测为正类的数量占全部实际为正类的数量的比例。公式如下所示:其中,FN为假负例,即实际为正样本模型预测为负样本的数量;(3)准确率(Accuracy):就是所有的预测正确(正类负类)的数量占总数量的比例。公式如下所示:其中,TN为真负例,即实际为负样本模型也预测为负样本的数量;(4)F1值(H

mean值):F1值就是精确值和召回率的调和均值,准确率和召回率是互相影响的,但是一般情况下准确率高、召回率就低,召回率低、准确率高,所以实际应用中要根据业务去考虑二者的衡量,此指标能够更好的衡量模型分类的结果。公式如下所示:
公式转化之后,可得:其中,P为精确率,是Precision的简写;R为召回率,是Recall的简写;PR是精确率与召回率的相乘。
[0011]进一步,执行S4的训练步骤具体包括:S41:训练更新历史模型;S42:训练深度学习模型;在执行步骤S42时,将数据集分为训练和验证部分,具体训练模型步骤包括:S421:对数据进行预处理,包含的步骤为:对数据分别进行中文及非中文的判断并分割数据、获取数据的token、根据token转换获得数据的token嵌入向量、segment嵌入向量及mask嵌入向量;S422:将上步获得的所有嵌入向量输入到Bert模型,输出的结果向量进行拼接形成词向量,并与权重向量相乘形成句向量;S423:上步获得的句向量输入到分类器中,输出分类器的分类结果向量,分类器包含MLP、LR网络;S424:上步获得的分类结果向量输入到一层全连接层中,输出分类的结果。
[0012]进一步,步骤S4将模型训练完毕后,多次执行重复训练,在训练期间对模型进行验证和调优,以保证训练的模型的效果。
[0013]进一步,步骤S6中,对推理数据的推理具体包括以下步骤:S61:加载历史模型;S62:依据推理需求选择是否加载深度学习模型,是则按步骤进行推理,反之则跳过S66;S63:选择是否将S2获得的历史F1值作为加权权重,是则加载S2获得的历史评估结果,反之则用1作为等效加权权重;S64:进行历史模型推理,得到历史模型推理结果;S65:进行规则模型推理,得到规则模型推理结果;S66:进行深度学习模型推理,得到深度学习模型推理结果;S67:获得的历史模型推理结果、规则模型推理结果及深度学习模型推理结果分别与S63中的加权权重相乘,获得最终的推理结果。
[0014]进一步,步骤S65中,对规则模型推理进一步包括以下步骤:S651:根据选择的模式进行相应的推理方式,若选择single模式,则执行步骤S653

S655,反之若选择multiple模式,则执行步骤S652;S652:获取规则识别函数列表,对输入的推理数据分别进行列表中每一个规则的识别,返回结果;S653:对输入的推理数据进行全区域的识别,识别成功则返回结果,否则执行步骤S654;S654:对输入的推理数据进行中英数分割,分成数英区段及中文区段,若数英区段存在,则对输入的数英区段进行数英区域识别,识别成功则返回结果,若中文区段存在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种敏感数据发现与识别的深度学习方法,其特征在于,所述方法包括以下步骤:S1:触发训练机制,获取训练数据;S2:对用户纠正后的推理结果数据进行评估,获得评估的结果;S3:加载历史规则模型和历史深度学习模型;S4:进行深度学习模型的迭代训练,直至模型稳定收敛,生成新的模型集;S5:获取推理数据;S6:使用训练得到的模型集及推理数据做算法推理,获得结果反馈给用户;S7:用户对结果进行纠正打标,产生的新样本用于评估及训练部分的使用。2.根据权利要求1所述的一种敏感数据发现与识别的深度学习方法,其特征在于,步骤S1中,训练数据包括至少一种敏感信息实例及其对应的标签,敏感信息包括姓名、职业、地域和国籍信息。3.根据权利要求2所述的一种敏感数据发现与识别的深度学习方法,其特征在于,步骤S2中,对数据进行全面的分类评估,包括精确率、准确率、召回率和F1值指标的macro宏观和micro微观结果,也包括单独类别下的精确率、准确率、召回率和F1值评估指标结果。4.根据权利要求3所述的一种敏感数据发现与识别的深度学习方法,其特征在于,步骤S2中的评估步骤具体包括:S21:分别对基于历史模型得到的分类结果、基于规则模型得到的分类结果、基于深度学习模型得到的分类结果及综合上述三个模型的分类结果加权获得的综合分类结果去计算macro宏观的精确率、准确率、召回率和F1值,具体计算参见下述公式;S22:分别对基于历史模型得到的分类结果、基于规则模型得到的分类结果、基于深度学习模型得到的分类结果及综合上述三个模型的分类结果加权获得的综合分类结果去计算micro微观的精确率、准确率、召回率和F1值,具体计算参见下述公式;S23:计算每个类别下的精确率、准确率、召回率和F1值,具体计算参见下述公式;精确率、召回率、准确率及F1值的概念以及计算方式为:(1)精确率Precision:也叫查准率,即正确预测为正类的数量占全部预测为正类的数量的比例;公式为:其中,TP为真正例,即实际为正样本模型也预测为正样本的数量;FP为假正例,即实际为负样本模型预测为正样本的数量;(2)召回率Recall:也叫查全率,即正确预测为正类的数量占全部实际为正类的数量的比例;公式为:其中,FN为假负例,即实际为正样本模型预测为负样本的数量;(3)准确率Accuracy:就是所有的预测正确的数量占总数量的比例;公式为:其中,TN为真负例,即实际为负样本模型也预测为负样本的数量;
(4)F1值:F1值就是精确值和召回率的调和均值,准确率和召回率是互相影响的,F1值能够衡量模型分类的结果;公式为:公式转化之后,可得:其中,P为精确率,是Precision的简写;R为召回率,是Recall的简写; PR是精确率与召回率的相乘;其中,macro宏观:把每个类别都当成二分类,分别计算出各个类别对应的精确率、准确率、召回率及F1值, 然后求所有类别的精确率,准确率、召回率及F1值的平均值,得到最终的精确率、准确率、召回率及F1值;micro微观:把各个类别当成二分类,统计各自的混淆矩阵,然后统计加和比例得到一个最终的混淆矩阵,再计算精确率、准确率、召回率及F1值。5.根据权利要求4所述的一种敏感数据发现与识别的深度学习方法,其特征在于,执行S4的训练步骤具体包括:S41:训练更新历史模型;S42:训练深度学习模型;在执行步骤S42时,将训练数据分为训练和验证部分,具体训练模型步骤包括:S421:对训练数据进行预处理,包含的步骤为:对数据分别进行中文及非中文的判断并分割数据、获取数据的token、根据token转换获得数据的...

【专利技术属性】
技术研发人员:周倩如秦宝帅黄峥
申请(专利权)人:杭州比智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1