一种敏感数据发现与识别的深度学习方法及系统技术方案

技术编号：34984976 阅读：39 留言：0更新日期：2022-09-21 14:29

本发明专利技术公开了一种敏感数据发现与识别的深度学习方法及系统，所述方法包括以下步骤：S1：触发训练机制，获取训练数据；S2：对用户纠正后的推理结果数据进行评估，获得评估的结果；S3：加载历史规则模型和历史深度学习模型；S4：进行深度学习模型的迭代训练，直至模型稳定收敛，生成新的模型集；S5：获取推理数据；S6：使用训练得到的模型集及推理数据做算法推理，获得结果反馈给用户；S7：用户对结果进行纠正打标，产生的新样本用于评估及训练部分的使用，本发明专利技术可以对不同的类型的数据进行全面的敏感数据识别，有效提高识别准确率。有效提高识别准确率。有效提高识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种敏感数据发现与识别的深度学习方法及系统

[0001]本专利技术涉及数据安全治理及自然语言处理的深度学习领域，尤其涉及一种数据治理场景下敏感数据发现与识别的深度学习方法及系统。

技术介绍

[0002]随着企业信息化水平的不断提高，数据共享与开放对企业发展的作用日益凸显，数据已成为重要生产要素之一，企业在产业与服务、营销支持、业务运营、风险管控、信息披露和分析决策等经营管理活动中涉及到大量的业务数据，其中可能会包含企业的商业秘密、工作秘密，以及员工的隐私信息等，若因为使用不当，造成数据泄露，则有可能造成巨大的经济损失或在社会、法律、信用、品牌上对企业造成严重的不良影响。因此，如何保障企业存储的各类敏感数据的安全，提前预警并消除风险就成为企业信息安全工作的重中之重。
[0003]现有的敏感字段识别方法主要包含以下几种：1、基于关键字的方法：根据定义的关键字去直接进行匹配，得到结果缺点：（1）难以定义完全，很大程度上可能会导致漏报（2）过于简单粗暴，对于多类别的字段，很难准确合理划分2、基于规则的方法：根据数据的格式，定义正则式去直接匹配，得到结果缺点：（1）难以定义完全，很大程度上可能会导致漏报（2）灵活性差3、基于机器学习的方法：利用从数据中学习到的知识做新数据的预测缺点：（1）需要有大批量、高质量的标注数据（2）泛化能力不足，对新业务数据的适应能力弱（3）不能进行自我优化、自我学习。
[0004]基于以上种种原因，综合考虑上述方法的优缺点，本专利技术实现了一种快速且高度自动化的敏感数据识别方法，可以...

【技术保护点】

【技术特征摘要】
1.一种敏感数据发现与识别的深度学习方法，其特征在于，所述方法包括以下步骤：S1：触发训练机制，获取训练数据；S2：对用户纠正后的推理结果数据进行评估，获得评估的结果；S3：加载历史规则模型和历史深度学习模型；S4：进行深度学习模型的迭代训练，直至模型稳定收敛，生成新的模型集；S5：获取推理数据；S6：使用训练得到的模型集及推理数据做算法推理，获得结果反馈给用户；S7：用户对结果进行纠正打标，产生的新样本用于评估及训练部分的使用。2.根据权利要求1所述的一种敏感数据发现与识别的深度学习方法，其特征在于，步骤S1中，训练数据包括至少一种敏感信息实例及其对应的标签，敏感信息包括姓名、职业、地域和国籍信息。3.根据权利要求2所述的一种敏感数据发现与识别的深度学习方法，其特征在于，步骤S2中，对数据进行全面的分类评估，包括精确率、准确率、召回率和F1值指标的macro宏观和micro微观结果，也包括单独类别下的精确率、准确率、召回率和F1值评估指标结果。4.根据权利要求3所述的一种敏感数据发现与识别的深度学习方法，其特征在于，步骤S2中的评估步骤具体包括：S21:分别对基于历史模型得到的分类结果、基于规则模型得到的分类结果、基于深度学习模型得到的分类结果及综合上述三个模型的分类结果加权获得的综合分类结果去计算macro宏观的精确率、准确率、召回率和F1值，具体计算参见下述公式；S22:分别对基于历史模型得到的分类结果、基于规则模型得到的分类结果、基于深度学习模型得到的分类结果及综合上述三个模型的分类结果加权获得的综合分类结果去计算micro微观的精确率、准确率、召回率和F1值，具体计算参见下述公式；S23:计算每个类别下的精确率、准确率、召回率和F1值，具体计算参见下述公式；精确率、召回率、准确率及F1值的概念以及计算方式为：（1）精确率Precision：也叫查准率，即正确预测为正类的数量占全部预测为正类的数量的比例；公式为：其中，TP为真正例，即实际为正样本模型也预测为正样本的数量；FP为假正例，即实际为负样本模型预测为正样本的数量；（2）召回率Recall：也叫查全率，即正确预测为正类的数量占全部实际为正类的数量的比例；公式为：其中，FN为假负例，即实际为正样本模型预测为负样本的数量；（3）准确率Accuracy：就是所有的预测正确的数量占总数量的比例；公式为：其中，TN为真负例，即实际为负样本模型也预测为负样本的数量；
（4）F1值：F1值就是精确值和召回率的调和均值,准确率和召回率是互相影响的，F1值能够衡量模型分类的结果；公式为：公式转化之后，可得：其中，P为精确率，是Precision的简写；R为召回率，是Recall的简写； PR是精确率与召回率的相乘；其中，macro宏观：把每个类别都当成二分类，分别计算出各个类别对应的精确率、准确率、召回率及F1值, 然后求所有类别的精确率，准确率、召回率及F1值的平均值，得到最终的精确率、准确率、召回率及F1值；micro微观：把各个类别当成二分类，统计各自的混淆矩阵，然后统计加和比例得到一个最终的混淆矩阵，再计算精确率、准确率、召回率及F1值。5.根据权利要求4所述的一种敏感数据发现与识别的深度学习方法，其特征在于，执行S4的训练步骤具体包括：S41:训练更新历史模型；S42:训练深度学习模型；在执行步骤S42时，将训练数据分为训练和验证部分，具体训练模型步骤包括：S421:对训练数据进行预处理，包含的步骤为：对数据分别进行中文及非中文的判断并分割数据、获取数据的token、根据token转换获得数据的...

【专利技术属性】
技术研发人员：周倩如，秦宝帅，黄峥，
申请(专利权)人：杭州比智科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人