一种静态数据脱敏方法及脱敏装置制造方法及图纸

技术编号:23315411 阅读:28 留言:0更新日期:2020-02-11 17:54
本发明专利技术提供了一种静态数据脱敏方法及脱敏装置,支持SLM和UPM两种脱敏方式。其中SLM方式包括如下步骤:与源数据端建立连接,自动完成隐私全量发现;梳理、调整隐私发现结果;与目标数据端建立连接;创建脱敏任务,选择源数据端及目标数据端,配置脱敏参数;启动脱敏任务,实时监控数据脱敏执行情况。UPM方式仅处理隐私字段,脱敏效率更高。本发明专利技术基于流式处理、全程数据不落地,可自动发现隐私类型,支持同构/异构、脱敏过程自定义配置等,使得脱敏过程安全可控、且提升了效率和灵活度;并综合运用高仿真的脱敏算法和数据水印、反向脱敏等技术,保留了原始数据的业务价值,同时避免敏感信息泄露,实现脱敏结果可控、可追溯。

A static data desensitization method and device

【技术实现步骤摘要】
一种静态数据脱敏方法及脱敏装置
本专利技术涉及数据脱敏
,具体地讲,本专利技术涉及一种静态数据脱敏方法及脱敏装置。
技术介绍
数据脱敏,指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。即在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则的情况下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。这样可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。根据数据脱敏应用场景的不同,分为静态数据脱敏和动态数据脱敏。静态数据脱敏适用于将数据抽取出生产环境脱敏后分发至测试、开发、培训、数据分析等场景,动态脱敏适用于不脱离生产环境,对敏感数据的查询和调用结果进行实时脱敏。以往在数据量不大、应用场景较为简单的情况下,企业多是自己编写脱敏脚本,屏蔽敏感数据。随着应用系统、数据量的不断增加,人工的方式已不能满足信息安全的需求。随着信息安全要求的不断加强,进而出现了很多静态数据脱敏技术和方法,但现有技术多存在如下几方面的不足:1)脱敏过程中数据落地,不安全。如果不能对脱敏过程做到有效保护,将依然会导致敏感数据的泄露;2)隐私发现多依赖于人工识别或指定。该种方式一方面工作效率低,同时也存在遗漏、疏忽、刻意等原因导致的隐私类型未识别,从而导致敏感数据泄露;3)脱敏速度有限,仅支持从源端到目标端的迁移式脱敏(SLM:Select-LoadMasking),不支持源端自身更新式脱敏(UPM:UpdateMasking)。在对脱敏速度要求较高的场景下,迁移式脱敏由于实现原理的限制,往往不能达到很高的速度,而更新式脱敏由于机制的不同,可以实现高速脱敏;4)脱敏算法简单,无法保证脱敏后数据的应用价值。脱敏不仅仅是数据变形,其需要保证变形后数据的测试、分析等使用价值。因此,需要做到:a)保持原有数据特征(如身份证号满足区域地址码(6位)、出生日期(8位)、顺序码(3位)和校验码(1位)的要求);b)保持数据之间的一致性(如身份证信息脱敏后仍需要保证出生年月字段和身份证中包含的出生日期之间的一致性);c)保持业务规则的关联性(如主、外键关联);d)多次脱敏之间的数据一致性,相同的数据进行多次脱敏,或者在不同的测试系统进行脱敏,需要确保每次脱敏的数据始终保持一致性,只有这样才能保障业务系统数据变更的持续一致性以及广义业务的持续一致性。5)脱敏灵活度低,使用方式和应用场景有限。体现在两个方面:a)体现在数据源类型的支持有限,比如,支持有限几种数据库类型(MySQL/Oracle/SQLServer/DB2等),仅支持同构数据库、不支持异构数据库脱敏,仅支持数据库脱敏、不支持文件方式脱敏,不支持数据库-文件双向异构脱敏;b)脱敏全过程自定义配置有限,比如不支持自定义隐私类型,不支持白名单表、黑名单表、表内数据筛选、全局参数、局部参数,不支持任务执行参数优化调整(隐私类型参数动态调整,并行任务数等),外部服务接口没有或有限(无法与第三方调度平台等整合,构建更加丰富的应用场景)。因此,本领域技术人员亟需提供一种静态数据脱敏方法及脱敏装置,可基于流式处理、全程数据不落地,可自动发现隐私类型,支持迁移式和更新式的脱敏方式,通过高仿真的脱敏算法进行隐私处理,既保障原始数据的安全,避免敏感信息泄露,同时实现脱敏过程可控、可追溯性,加强企业对于客户信息的保护力度。
技术实现思路
本专利技术要解决的技术问题是:提供一种静态数据脱敏方法及脱敏装置,可基于流式处理、全程数据不落地,可自动发现隐私类型,支持迁移式和更新式的脱敏方式,通过高仿真的脱敏算法进行隐私处理,既保障原始数据的安全,避免敏感信息泄露,同时实现脱敏过程可控、可追溯性,加强企业对于客户信息的保护力度。本专利技术解决其技术问题所采用的技术方案是:提供一种静态数据脱敏方法,包括以下步骤:步骤S01、与源数据端建立连接,自动完成隐私全量发现;步骤S02、梳理、调整并确认已发现的隐私数据,根据实际情况,完成增量隐私发现;步骤SO3、与目标数据端建立连接;步骤S04、创建脱敏作业任务,选择源数据端和目标数据端,配置脱敏参数;步骤S05、启动脱敏任务,实时监控数据脱敏执行情况。优选的,所述步骤S01具体包括:步骤S011、判定源数据端类型为数据库类型或文件类型,采集相应的配置信息,建立连接并测试联通性;步骤S012、连接成功后,根据预先设定的隐私发现规则,自动对源数据端执行全量隐私发现,根据隐私发现的状态判断发现过程是否已完成、是否存在异常,若存在异常可查看具体原因。优选的,所述步骤S012中,所述隐私发现采用自动扫描的处理方式,支持人工全量/增量隐私类型发现和定时全量/增量隐私类型发现。优选的,所述步骤S02中,若隐私发现过程已开始,可查看已发现的结果,通过隐私预览确认发现结果是否正确;确认如下内容:有无未识别的或未标记为隐私的字段、原始数据是否与发现的隐私类型一致、脱敏预览结果是否符合预期、是否需要做混合隐私类型脱敏;若源数据端类型为数据库类型,发现结果包括:数据库名称、Schema名称、表名、字段名、字段类型、是否为隐私字段或隐私类型其中的一种或多种信息;若源数据端类型为文件类型,则包括源端地址、路径、文件名称或文件类型其中的一种或多种信息。优选的,所述步骤SO3中,根据目标数据端类型,采集相应的配置信息,建立连接并测试连通性;支持同构和异构两种脱敏方式:若目标数据端与源数据端类型相同,都为某一种数据库或某一种文件类型,为同构脱敏;若目标数据端与源数据端类型不同,源数据端为某一种数据库或文件类型、目标数据端为另一种数据库或文件类型,为异构脱敏。优选的,所述步骤S04中,选择SLM迁移式脱敏方式或者UPM更新式脱敏方式,创建相应的脱敏任务。优选的,若选择SLM迁移式脱敏方式,具体包括以下步骤:步骤S041、选择源数据端,判定源数据端类型为数据库类型或文件类型,若为数据库类型,则显示所有数据表信息;若为文件类型,则显示所有待脱敏的文件列表,选择全部或者部分表、脱敏文件;步骤S042、调整任务参数,任务参数包括脱敏因子值、任务范围内的隐私类型、白名单表、黑名单表、表内数据筛选、全局参数、局部参数,任务并发线程;步骤S043、选择目标数据端,配置目标端参数,参数包括主键、外键、索引、存储过程、目标端原表和数据清理、任务运行以及异常后的处理方式。优选的,若选择UPM更新式脱敏方式,则只需选择源数据端和调整任务参数。优选的,所述步骤S05中,具体包括以下步骤:任务创建成功后,执行启动操作,开始数据脱敏;若选择SLM迁移式脱敏方式,则过程为从源数据端抽取数据,加载至内存中,若为隐私类型,调用脱敏算法和参数进行数据脱敏操作,然后根据预先设定的任务参数,重建表或仅删除原有数据,然后将脱本文档来自技高网
...

【技术保护点】
1.一种静态数据脱敏方法,其特征在于,包括以下步骤:/n步骤S01、与源数据端建立连接,自动完成隐私全量发现;/n步骤S02、梳理、调整并确认已发现的隐私数据,根据实际情况,完成增量隐私发现;/n步骤SO3、与目标数据端建立连接;/n步骤S04、创建脱敏作业任务,选择源数据端和目标数据端,配置脱敏参数;/n步骤S05、启动脱敏任务,实时监控数据脱敏执行情况。/n

【技术特征摘要】
1.一种静态数据脱敏方法,其特征在于,包括以下步骤:
步骤S01、与源数据端建立连接,自动完成隐私全量发现;
步骤S02、梳理、调整并确认已发现的隐私数据,根据实际情况,完成增量隐私发现;
步骤SO3、与目标数据端建立连接;
步骤S04、创建脱敏作业任务,选择源数据端和目标数据端,配置脱敏参数;
步骤S05、启动脱敏任务,实时监控数据脱敏执行情况。


2.如权利要求1所述的静态数据脱敏方法,其特征在于,所述步骤S01具体包括:
步骤S011、判定源数据端类型为数据库类型或文件类型,采集相应的配置信息,建立连接并测试联通性;
步骤S012、连接成功后,根据预先设定的隐私发现规则,自动对源数据端执行全量隐私发现,根据隐私发现的状态判断发现过程是否已完成、是否存在异常,若存在异常可查看具体原因。


3.如权利要求2所述的静态数据脱敏方法,其特征在于,所述步骤S012中,所述隐私发现采用自动扫描的处理方式,支持人工全量/增量隐私类型发现和定时全量/增量隐私类型发现。


4.如权利要求1所述的静态数据脱敏方法,其特征在于,所述步骤S02中,若隐私发现过程已开始,可查看已发现的结果,通过隐私预览确认发现结果是否正确;
确认如下内容:有无未识别的或未标记为隐私的字段、原始数据是否与发现的隐私类型一致、脱敏预览结果是否符合预期、是否需要做混合隐私类型脱敏;
若源数据端类型为数据库类型,发现结果包括:数据库名称、Schema名称、表名、字段名、字段类型、是否为隐私字段或隐私类型其中的一种或多种信息;
若源数据端类型为文件类型,则包括源端地址、路径、文件名称或文件类型其中的一种或多种信息。


5.如权利要求1所述的静态数据脱敏方法,其特征在于,所述步骤SO3中,根据目标数据端类型,采集相应的配置信息,建立连接并测试连通性;
支持同构和异构两种脱敏方式:
若目标数据端与源数据端类型相同,都为某一种数据库或某一种文件类型,为同构脱敏;
若目标数据端与源数据端类型不同,源数据端为某一种数据库或文件类型、目标数据端为另一种数据库或文件类型,为异构脱敏。


6.如权利要求1所述的静态数据脱敏方法,其特征在于,所述步骤S04中,选择SLM迁移式脱敏方式或者UPM更新式脱敏方式,创建相应的脱敏任务。


7.如权利要求6所述的静态数据脱敏方法,其特征在于,若选择SLM迁移式脱敏方式,具体包括以下步骤:
步骤S041、选择源数据端,判定源数据端类型为数据库类型...

【专利技术属性】
技术研发人员:仇军
申请(专利权)人:上海凯馨信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1