【技术实现步骤摘要】
本专利技术涉及数据加工,尤其涉及一种基于敏感数据识别和脱敏的样本数据加工方法和系统。
技术介绍
1、为确保原始数据安全,通常使用生成的样本数据用于数据开发,实现数据可用不可见的目的。现有数据资源表的样本数据生成主要通过人工方式生成,采用第三方样本数据加工工具对人工生成的样本数据进行处理加工,人工生成样本数据对操作人员业务能力要求较高,另外,样本数据生成过程中存在诸多需要人工干预的操作,例如待加工数据表的选择、样本生成规则手动配置等。当出现对样本数据量需求较大的情况,人工生成样本数据效率太低,无法满足具体需求。另外,采用人工处理的方式,没有统一的评判标准,敏感数据识别主要依赖人的主观判断,准确度交较低。
2、因此,如何提供一种高效、精确的样本数据加工方法,成为亟待解决的技术问题。
技术实现思路
1、有鉴于此,为了克服现有技术的不足,本专利技术旨在提供一种基于敏感数据识别和脱敏的样本数据加工方法和系统。
2、根据本专利技术的第一方面,提供一种基于敏感数据识别和脱敏的样本
...【技术保护点】
1.一种基于敏感数据识别和脱敏的样本数据加工方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于敏感数据识别和脱敏的样本数据加工方法,其特征在于,当通过第一敏感字段识别未能从原始数据中识别到第一敏感字段,通过正则识别对所述原始数据进行第二敏感字段识别,包括:根据原始数据的属性编辑对应的正则表达式,根据编辑的正则表达式识别所述原始数据中是否存在第二敏感字段。
3.根据权利要求1所述的基于敏感数据识别和脱敏的样本数据加工方法,其特征在于,当通过第二敏感字段识别未能从原始数据中识别到第二敏感字段,通过关键字识别对所述原始数据进行第三敏感字段
...【技术特征摘要】
1.一种基于敏感数据识别和脱敏的样本数据加工方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于敏感数据识别和脱敏的样本数据加工方法,其特征在于,当通过第一敏感字段识别未能从原始数据中识别到第一敏感字段,通过正则识别对所述原始数据进行第二敏感字段识别,包括:根据原始数据的属性编辑对应的正则表达式,根据编辑的正则表达式识别所述原始数据中是否存在第二敏感字段。
3.根据权利要求1所述的基于敏感数据识别和脱敏的样本数据加工方法,其特征在于,当通过第二敏感字段识别未能从原始数据中识别到第二敏感字段,通过关键字识别对所述原始数据进行第三敏感字段识别,包括:对原始数据的元数据进行关键字识别,判断所述原始数据的元数据是否存在第三敏感字段。
4.根据权利要求1所述的基于敏感数据识别和脱敏的样本数据加工方法,其特征在于,当原始数据存在第一敏感字段或第二敏感字段或第三敏感字段,为识别出的敏感字段匹配对应的脱敏规则,根据脱敏规则对存在敏感字段的原始数据进行脱敏,生成样本数据,包括:在为识别出的敏感字段匹配对应的脱敏规则后,对所述敏感字段与脱敏规则进行匹配度审核,当脱敏规则与敏感字段未完全对应匹配,对所述脱敏规则进行修改直至修改后的脱敏规则与敏感字段相匹配。
5.一种基于敏感数据识别和脱敏的样本数据加工系统,其特征在于,所述系统包括样本数据加工服务端,所述样本数据加工服务端用于获取待识别的原始数据,对获取的原始数据进行第一敏感字段识别;当通过第一敏感字段识别未能从原始数据中识别到第一敏感字段,通过正则识别对所述原始数据进行第二敏...
【专利技术属性】
技术研发人员:陆志鹏,韩光,郑曦,王晓亮,国丽,刘国栋,范国浩,畅佳,胡成盛,胡俊,
申请(专利权)人:中电数据产业有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。