一种基于DataX的敏感数据处理方法、系统和装置制造方法及图纸

技术编号:37701444 阅读:28 留言:0更新日期:2023-06-01 23:46
本发明专利技术公开了一种基于DataX的敏感数据处理方法、系统和装置,属于计算机数据处理技术领域,该方法的实现过程如下:新增加密或脱敏策略和敏感数据识别规则;将策略和规则添加到对应任务中,并进行敏感数据识别;将加密或脱敏参数添加到配置文件中;解析配置文件中添加的相关参数信息;根据加密或脱敏参数对数据进行加密或脱敏处理。本发明专利技术解决数据同步过程中的敏感数据的识别和处理问题,在数据同步过程中实现了敏感数据的自动识别、加密或脱敏,提高数据的安全性,结合数据同步极大的提高了处理效率,能够快速满足客户需求。能够快速满足客户需求。能够快速满足客户需求。

【技术实现步骤摘要】
一种基于DataX的敏感数据处理方法、系统和装置


[0001]本专利技术涉及计算机数据处理
,具体地说是一种基于DataX的敏感数据处理方法、系统和装置。

技术介绍

[0002]DataX是阿里云的开源版本,是在阿里巴巴集团内被广泛使用的离线数据同步工具。DataX实现了包括MySQL、Oracle、HDFS、Hive、HBase等各种异构数据源之间高效的数据同步功能。
[0003]DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统,每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。
[0004]但是DataX只是数据同步工具,功能较为单一,只能实现基本的数据同步功能,而且只能通过配置json配置文件实现,没有可视化操作界面,不是很友好。
[0005]现实需求中存在不少需要在数据同步的同时进行对敏感数据的识别、加密或脱敏的需本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于DataX的敏感数据处理方法,其特征在于,该方法的实现过程如下:1)、新增加密或脱敏策略和敏感数据识别规则,通过前台可视化界面新增加密或脱敏策略和敏感数据识别规则,生成所需的信息,包括加密算法、加密秘钥、敏感数据识别正则表达式信息;2)、将策略和规则添加到对应任务中,并进行敏感数据识别,新增同步任务时将数据加密或脱敏策略和敏感数据识别规则配置到相关任务中,根据敏感数据识别规则自动识别敏感数据字段并关联对应的加密或脱敏的策略;3)、将加密或脱敏参数添加到配置文件中,新增任务敏感数据识别完成后调用DataX

Web相关接口,将加密或脱敏相关参数信息添加到DataX可执行的json配置文件中,实现json配置文件的自动化生成;4)、解析配置文件中添加的相关参数信息,根据定时策略启动任务后调用DataX

Web执行器通过执行命令启动DataX执行对应的json配置文件,通过DataX的插件解析json配置文件添加的相关加密或脱敏参数配置信息;5)、根据加密或脱敏参数对数据进行加密或脱敏处理,执行DataX作业时通过DataX的插件根据加密或脱敏参数在进行数据同步的过程中通过加密或脱敏相关参数信息调用对应加密或脱敏的组件对相应数据字段进行加密或脱敏处理,在数据同步的过程中实现敏感数据的加密或脱敏处理。2.根据权利要求1所述的一种基于DataX的敏感数据处理方法,其特征在于,所述新增加密或脱敏策略和敏感数据识别规则,支持的加密或脱敏策略和敏感数据识别规则包括SM2、SM4、AES、RSA、DES、DESede、MD5、SHA1、SHA256、SHA512、掩码、截断,生成所需的加密算法、加密秘钥、脱敏参数信息,支持各种数据的敏感数据识别正则表达式配置,并且可以对策略和规则进行测试。3.根据权利要求1或2所述的一种基于DataX的敏感数据处理方法,其特征在于,所述将策略和规则添加到对应任务中,并进行敏感数据识别,新增的同步任务通过配置执行策略定时执行,并具有完整的任务监控、数据统计和日志查看功能,根据敏感数据识别规则配置的表达式去匹配数据筛选敏感数据并关联对应的加密或脱敏的策略。4.根据权利要求1所述的一种基于DataX的敏感数据处理方法,其特征在于,所述加密或脱敏相关参数包括操作类型、秘钥、字段、脱敏参数信息。5.根据权利要求1或4所述的一种基于DataX的敏感数据处理方法,其特征在于,所述将加密或脱敏参数添加到...

【专利技术属性】
技术研发人员:赵绍祥陈绪光张连超周双司衍芹
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1