System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及大数据处理,特别是涉及一种数据分类分级方法和相关产品。
技术介绍
1、数据安全是指让信息或信息系统免受未经授权的访问、使用、披露、破坏、修改和销毁的过程或状态。而数据安全治理不仅仅是安全工具或解决方案,也是基于战略、业务、应用、安全和风险管理的有机整体,从管理制度到支撑工具,从上层管理架构到下层技术实现,采取的一系列合适的措施。数据安全治理是人工智能在数据治理全过程中的重要应用环节。
2、由于保险企业掌握大量数据,所以监管部门要求保险企业严格规范数据安全,加强隐私保护。当前,保险企业大多还采用人工标注的方法,对保险企业掌握的大量数据进行数据安全分类和数据安全分级,鉴于传统方法具有费时费力,效率较低的缺点;在数字化转型发展的背景下,如何建立一套高效的数据分类分级方法,提高对数据进行数据安全分类和数据安全分级的工作效率,成为亟待解决的问题。
技术实现思路
1、基于上述问题,本申请提供了一种数据分类分级方法,用以高效地对数据进行安全分类和安全分级,提高对数据进行安全分类和安全分级的工作效率。
2、本申请第一方面提供了一种数据分类分级方法,包括:
3、从目标词库中确定与目标数据集中的字段具有对应关系的词组;所述目标词库包括所述目标数据集所在行业的专业词语;所述与目标数据集中的字段具有对应关系的词组为与所述目标数据集中的字段相同的词组,或者为与所述目标数据集中的字段有重合的词组;
4、根据所确定的词组构建所述目标数据集的待分类分级数据
5、将所述待分类分级数据项作为分类分级预测模型的输入,通过所述分类分级预测模型获得所述待分类分级数据项的数据类型和安全等级;所述分类分级预测模型包括分类预测模型和分级预测模型;所述分类预测模型用于获取所述待分类分级数据项的数据类型预测结果;所述分级预测模型用于获取所述待分类分级数据项的安全等级预测结果;所述分类分级预测模型基于数据类型和安全等级的真实对应关系构建。
6、可选地,所述分类分级预测模型的训练步骤包括:
7、从所述目标词库中确定与样本数据集中的字段具有对应关系的词组;所述与样本数据集中的字段具有对应关系的词组为与所述样本数据集中的字段相同的词组,或者为与所述样本数据集中的字段有重合的词组;
8、根据所确定的与样本数据集中的字段具有对应关系的词组构建所述样本数据集的样本分类分级数据项;
9、利用所述样本分类分级数据项和第一待训练模型,获得所述样本分类分级数据项的数据类型预测结果;
10、利用所述样本分类分级数据项和第二待训练模型,获得所述样本分类分级数据项的安全等级预测结果;
11、根据所述样本分类分级数据项的数据类型预测结果和安全等级预测结果间的预测对应关系与所述真实对应关系的差异,对所述第一待训练模型中的参数和所述第二待训练模型中的参数进行调整,直到训练结束获得所述数据分类分级预测模型。
12、可选地,所述利用所述样本分类分级数据项和第一待训练模型,获得所述样本分类分级数据项的数据类型预测结果,包括:
13、将所述样本分类分级数据项输入至所述第一待训练模型,通过所述第一待训练模型对所述样本分类分级数据项的分析,获得所述样本分类分级数据项的数据类型预测结果。
14、可选地,所述利用所述样本分类分级数据项和第二待训练模型,获得所述样本分类分级数据项的安全等级预测结果,包括:
15、将所述样本分类分级数据项输入至所述第二待训练模型,通过所述第二待训练模型对所述样本分类分级数据项的分析,获得所述样本分类分级数据项的安全等级预测结果。
16、可选地,所述目标词库的构建步骤包括:
17、从行业数据集中筛选出与中文词库中的汉字相同的目标汉字;所述目标汉字包括单字和词组;所述行业数据集包括所述目标数据集和样本数据集;
18、从所述行业数据集中剔除外文字符串中的特殊字符,获得目标外文;所述目标外文中包括外文单词和外文词组;
19、将所述目标汉字和所述目标外文按照在所述行业数据集中出现频率由高到低的顺序排列,构建所述目标词库。
20、可选地,若与所述目标数据集中的字段有重合的词组为多个,从目标词库中确定与目标数据集中的字段具有对应关系的词组,包括:
21、分别获取与所述目标数据集中的字段有重合的多个词组在所述目标词库中的排列序号;
22、确定排列序号最小的词组为构建所述目标数据集的待分类分级数据项的词组。
23、本申请第二方面提供了一种数据分类分级装置,包括:
24、目标词组筛选模块,用于从目标词库中确定与目标数据集中的字段具有对应关系的词组;所述目标词库包括所述目标数据集所在行业的专业词语;所述与目标数据集中的字段具有对应关系的词组为与所述目标数
25、据集中的字段相同的词组,或者为与所述目标数据集中的字段有重合的词组;
26、目标数据项构建模块,用于根据所确定的词组构建所述目标数据集的待分类分级数据项;
27、结果获取模块,用于将所述待分类分级数据项作为分类分级预测模型的输入,通过所述分类分级预测模型获得所述待分类分级数据项的数据类型和安全等级;所述分类分级预测模型包括分类预测模型和分级预测模型;所述分类预测模型用于获取所述待分类分级数据项的数据类型预测结果;所述分级预测模型用于获取所述待分类分级数据项的安全等级预测结果;所述分类分级预测模型基于数据类型和安全等级的真实对应关系构建。
28、可选地,所述装置还包括模型训练模块,所述分类分级预测模型为通过所述模型训练单元训练得到;所述模型训练模块包括:
29、样本词组筛选单元,用于从所述目标词库中确定与样本数据集中的字段具有对应关系的词组;所述与样本数据集中的字段具有对应关系的词组为与所述样本数据集中的字段相同的词组,或者为与所述样本数据集中的字段有重合的词组;
30、样本数据项构建单元,用于根据所确定的与样本数据集中的字段具有对应关系的词组构建所述样本数据集的样本分类分级数据项;
31、数据类型获取单元,用于利用所述样本分类分级数据项和第一待训练模型,获得所述样本分类分级数据项的数据类型;
32、数据类型获取单元,用于利用所述样本分类分级数据项和第一待训练模型,获得所述样本分类分级数据项的数据类型预测结果;
33、安全等级获取单元,用于利用所述样本分类分级数据项和第二待训练模型,获得所述样本分类分级数据项的安全等级预测结果;
34、参数调整单元,用于根据所述样本分类分级数据项的数据类型预测结果和安全等级预测结果间的预测对应关系与所述真实对应关系的差异,对所述第一待训练模型中的参数和所述第二待训练模型中的参数进行调整,直到训练结束获得所述数据分类分级预测模型。
35、本申请第三方面提供了一种计算机可读存储介质,其上存储本文档来自技高网...
【技术保护点】
1.一种数据分类分级方法,其特征在于,所述方法包括:
2.根据权利要求1所述方法,其特征在于,所述分类分级预测模型的训练步骤包括:
3.根据权利要求2所述的方法,其特征在于,所述利用所述样本分类分级数据项和第一待训练模型,获得所述样本分类分级数据项的数据类型预测结果,包括:
4.根据权利要求2或3所述的方法,其特征在于,所述利用所述样本分类分级数据项和第二待训练模型,获得所述样本分类分级数据项的安全等级预测结果,包括:
5.根据权利要求1所述的方法,其特征在于,所述目标词库的构建步骤包括:
6.根据权利要求1所述的方法,其特征在于,若与所述目标数据集中的字段有重合的词组为多个,从目标词库中确定与目标数据集中的字段具有对应关系的词组,包括:
7.一种数据分类分级装置,其特征在于,所述装置包括:
8.根据权利要求7所述的装置,其特征在于,所述装置还包括模型训练模块,所述分类分级预测模型为通过所述模型训练单元训练得到;所述模型训练模块包括:
9.一种计算机可读存储介质,其上存储有计算机程序,
10.一种电子设备,其特征在于,包括:
...【技术特征摘要】
1.一种数据分类分级方法,其特征在于,所述方法包括:
2.根据权利要求1所述方法,其特征在于,所述分类分级预测模型的训练步骤包括:
3.根据权利要求2所述的方法,其特征在于,所述利用所述样本分类分级数据项和第一待训练模型,获得所述样本分类分级数据项的数据类型预测结果,包括:
4.根据权利要求2或3所述的方法,其特征在于,所述利用所述样本分类分级数据项和第二待训练模型,获得所述样本分类分级数据项的安全等级预测结果,包括:
5.根据权利要求1所述的方法,其特征在于,所述目标词库的构建步骤包括:
6....
【专利技术属性】
技术研发人员:张新雨,卢西昌,李华,朱蕙,张琳,李继业,宋袁婧筠,
申请(专利权)人:太保科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。