【技术实现步骤摘要】
数据处理方法、装置、电子设备和存储介质
[0001]本申请涉及大数据
,尤其涉及一种数据处理方法、装置、电子设备和存储介质。
技术介绍
[0002]为了维持或者推动某一行业或领域的发展,可能需要存储敏感信息。在查看或使用包含敏感信息的敏感数据之前,需要对敏感数据进行漂白脱敏,以避免泄露敏感信息。
[0003]在相关技术中,可采用敏感字段对应的脱敏策略对敏感数据进行漂白脱敏。对于不同的行业、不同的领域、甚至不同的数据库而言,敏感信息对应的敏感字段可能各不相同,往往需要通过人工筛选方式,获取并设置敏感字段,在此过程中,往往需要耗费大量的时间和经历,容易遗漏敏感字段,进而导致敏感数据不能完全漂白脱敏,最终导致敏感信息被泄露。
技术实现思路
[0004]本申请提供一种数据处理方法、装置、电子设备和存储介质,能够实现针对不同数据库的数据表中的敏感数据的自动化漂白,进而节约开发及测试成本,以及提高数据漂白脱敏效率,避免敏感信息被泄露。
[0005]为达到上述目的,本申请采用如下技术方案:
[ ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待漂白数据库中的所有数据表,所述所有数据表中的至少一个数据表包含敏感信息;通过预置机器学习模型,识别所述所有数据表对应的设计文档中的敏感字段;根据所述敏感字段对应的漂白规则,对所述所有数据表中所述敏感字段对应的数据进行漂白,生成漂白数据表。2.根据权利要求1所述的数据处理方法,其特征在于,所述预置机器学习算法模型为以下任一项:预置决策树模型、预置朴素贝叶斯算法模型、预置支持向量机算法模型、预置人工神经网络算法模型、预置随机森林算法模型、引导聚集Bagging算法、提升Boosting算法和预置关联规则算法模型。3.根据权利要求2所述的数据处理方法,其特征在于,所述通过预置机器学习模型,识别所述所有数据表对应的设计文档中的敏感字段之前,所述方法还包括:提取预训练集的每个预置字段的字段特征和所述字段特征对应的字段标识,所述预训练集包括至少一个预置字段,以及所述至少一个预置字段中每个预置字段的字段标识;根据所述字段特征和所述字段特征对应的字段标识,训练所述预置机器学习模型。4.根据权利要求1所述的数据处理方法,其特征在于,所述通过预置机器学习模型,识别所述所有数据表对应的设计文档中的敏感字段,包括:获取所述所有数据表对应的设计文档中的每个表字段的数据结构和字段释义;将所述数据结构和所述字段释义,输入所述预置机器学习模型,以识别所述所有数据表对应的设计文档中的每个表字段的敏感字段。5.根据权利要求1所述的数据处理方法,其特征在于,所述获取待漂白数据库中的所有数据表,包括:获取所述待漂白数据库的连接信息,所述连接信息包括:数据库类型、互联网协议IP地址、数据库名称、用户名和所述用户名对应的密码;根据所述连接信息,获取待...
【专利技术属性】
技术研发人员:蒋吉林,刘秋艳,高博,蔡明哲,
申请(专利权)人:中国银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。