一种集群式文本化海量敏感数据处理方法及系统技术方案

技术编号:16379734 阅读:37 留言:0更新日期:2017-10-15 13:44
一种集群式文本化海量敏感数据处理方法,包括获取对象数据库的元数据,获取对象数据库的结构化数据文本,建立服务集群,对所述结构化数据文本进行分页和分组,对所述结构化数据文本进行脱敏处理,获得目标数据库,对所述对象数据库执行结构化文本导入,以导入所述目标数据库。由于搭配数据库读写和文本读写两种方式构成了数据库敏感信息脱敏方法,利用文本的读写可线性并发并且不存在数据库读写时的并发瓶颈的特点,使得对于数据库数据进行结构化文本数据方式的导入和导出,能够实现硬件叠加,并且该硬件叠加还能够利用负载均衡集群的方式进行简单扩展,实现了对于海量敏感数据的快速处理。

Method and system for processing cluster type mass sensitive data

A cluster of massive text sensitive data processing methods, including metadata object database, structured data access to text objects in the database, the establishment of service cluster, paging and grouping of the structured data on the text, the text into structured data for desensitization treatment, obtain the target database, the object database structure the text import, to import the target database. The collocation database to read and write and read and write text in two ways to form the database of sensitive information desensitization method, using the text reading and writing can be complicated and there is no linear database to read and write concurrency bottleneck characteristics, which makes the import and export data to structured text data in the database, to achieve the hardware overlay, and the hardware overlay it can be a simple expansion of the use of load balancing cluster, can quickly process vast amounts of sensitive data.

【技术实现步骤摘要】
一种集群式文本化海量敏感数据处理方法及系统
本专利技术涉及数据处理
,具体涉及一种集群式文本化海量敏感数据处理方法及系统。
技术介绍
目前对于敏感数据进行处理时,基本分为两种方式。第一种为手工处理方式,即工作人员手工编写SQL程序或存储过程程序,对存储于数据库的敏感数据进行处理。SQL是一种用于访问和处理数据库的标准计算机语言。第二种为工具处理方式,即使用市场上敏感数据处理产品进行处理,这类产品一般为源数据与目标数据库建立数据处理服务,通过源数据库系统所提供的DML接口进行处理。DML的全称为DateManipulationLanguang,即数据操控语言,用于操作数据库对象中包含的数据。以上两种敏感数据处理方式都具有缺陷。手工处理方式无法保证脱敏数据的质量以及无法适应流程化管理,现已逐渐被淘汰。工具处理方式近些年才开始普遍起来,可以保证脱敏工作的质量以及可审计,满足管理需要,但一般都是单服务器对特定数据库进行处理,缺乏可扩展性,因为数据库、网络、硬件等一系列瓶颈等原因,对于海量数据的脱敏处理效率问题越来越凸显。
技术实现思路
本申请提供一种针对海量(TB级或PB级)敏感数据进行快速处理的方法,其解决的技术问题是现有数据量越来越大的数据库进行数据脱敏时,因为硬件、网络、数据库系统所形成的单点瓶颈造成脱敏操作效率太低,难以满足数据量越来越大的数据库系统的数据脱敏工作需要的问题。根据第一方面,一种实施例中提供一种集群式文本化海量敏感数据处理方法,包括获取对象数据库的元数据,获取对象数据库的结构化数据文本,建立服务集群,对所述结构化数据文本进行分页和分组,对所述结构化数据文本进行脱敏处理,获得目标数据库,对所述对象数据库执行结构化文本导入,以导入所述目标数据库。进一步的,建立服务集群为建立由Web服务管控的服务集群。进一步的,对所述结构化数据文本进行脱敏处理,包括所述服务集群通过并行处理对所述结构化数据文本进行脱敏处理。进一步的,获取对象数据库的元数据,为通过数据库直连的方式获取对象数据库的元数据。根据第二方面,一种实施例中提供一种集群式文本化海量敏感数据处理系统,包括用于获取对象数据库的元数据的装置,用于获取对象数据库的结构化数据文本的装置,服务集群,用于对所述结构化数据文本进行分页和分组的装置,用于对所述结构化数据文本进行脱敏处理获得目标数据库的装置,用于对所述对象数据库执行结构化文本导入以导入所述目标数据库的装置。根据第三方面,一种实施例中提供一种产品,包括主控处理服务器和数据处理服务器。主控处理服务器用于设置脱敏处理的数据处理规则、数据处理范围和运行参数。数据处理服务器用于对对象数据库执行访问配置文件处理、数据读取处理、数据脱敏处理和数据写入处理,主控处理服务器和数据处理服务器的协同作用获得目标数据库。进一步的,数据处理服务器可根据对象数据库中数据量的多寡进行配置。当配置多个数据处理服务器时,多个数据处理服务器采用多线程、多进程和负载均衡的处理方式并行工作。进一步的,主控处理服务器通过Web服务管控的方式管控数据处理服务器的工作。根据第四方面,一种实施例中提供一种产品,包括存储器和处理器,存储器用于存储程序,处理器用于通过执行存储器存储的程序以实现如第一方面实施例所述的方法。根据第五方面,一种实施例中提供一种计算机可读存储介质,包括程序,所述程序能够被处理器执行以实现如第一方面实施例所述的方法。依据上述实施例的集群式文本化海量敏感数据处理方法,由于搭配数据库读写和文本读写两种方式构成了数据库敏感信息脱敏方法,利用文本的读写可线性并发并且不存在数据库读写时的并发瓶颈的特点,使得对于数据库数据进行结构化文本数据方式的导入和导出,能够实现硬件叠加,并且该硬件叠加还能够利用负载均衡集群的方式进行简单扩展,实现了对于海量敏感数据的快速处理。附图说明图1为实施例一中集群式文本化海量敏感数据处理方法的流程图;图2为实施例二中集群式文本化海量敏感数据处理系统的结构示意图;图3为实施例三中产品的结构示意图;图4为实施例四中产品的的结构示意图。具体实施方式下面通过具体实施方式结合附图对本专利技术作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。在本专利技术实施例中,考虑到目前几乎所有的关系数据库都是支持高效率结构化数据文本的导入导出,如此可以搭配数据库读写和文本读写两种方案构成新型的数据库敏感信息脱敏的技术方案。由于文本的读写可线性并发,不存在数据库读写时的并发瓶颈,因此,可以采用硬件叠加的方式对数据库的数据导出或导入进行处理,以获取结构化文本数据,并且这种硬件叠加可以进行简单扩展,可方便的满足海量数据的处理要求。实施例一:实施例一提供了一种集群式文本化海量敏感数据处理方法,请参考图1,包括以下步骤:步骤S100:获取对象数据库的元数据。在一种具体实施方式中,通过数据库直连的方式获取对象数据库的元数据。步骤S110:获取对象数据库的结构化数据文本。步骤S120:建立服务集群。在一种具体实施方式中,所建立的服务集群为由Web服务管控的服务集群。步骤S130:对所述结构化数据文本进行分页和分组。步骤S140:对所述结构化数据文本进行脱敏处理,获得目标数据库。在一种具体实施方式中,对结构化数据文本进行脱敏处理时,由服务集群通过并行处理对结构化数据文本进行脱敏处理。步骤S150:对对象数据库执行结构化文本导入,以导入所述目标数据库。不同数据库处理机制是相同的,差异性只体现在读取元数据的方式以及调用数据导入导出工具的区别上。实施例一所提供的方法首先获取对象数据库的结构化数据文本,利用文本数据的读写可线性并发的特性,结合可简单扩展的服务集群,令服务集群采用多线程、多进程和负载均衡的处理方式对结构化数据文本进行脱敏处理,在数据库的数据量过大时,可以按照需要扩展服务集群以加快脱敏处理的进程,极大地提高了脱敏处理的效率。可自由扩展的负载均衡式服务集群,实现了对数据文本处理的硬件叠加,可以通过提高投入的硬件的数量来获得极高的执行效率。实施例一所提供的方法通过对统一的结构化数据文本进行脱敏处理,不仅实现了对结构化数据文本脱敏处理的多进程、多线程和负载均衡化处理,而且实现了在不同数据库应用的兼容性,通过同构数据文本的处理方式获得不同数据库之间的良好兼容性,能够兼顾现有脱敏产品的安全性和可控性。实施例二:实施例本文档来自技高网...
一种集群式文本化海量敏感数据处理方法及系统

【技术保护点】
一种集群式文本化海量敏感数据处理方法,其特征在于包括:获取对象数据库的元数据;获取对象数据库的结构化数据文本;建立服务集群;对所述结构化数据文本进行分页和分组;对所述结构化数据文本进行脱敏处理,获得目标数据库;对所述对象数据库执行结构化文本导入,以导入所述目标数据库。

【技术特征摘要】
1.一种集群式文本化海量敏感数据处理方法,其特征在于包括:获取对象数据库的元数据;获取对象数据库的结构化数据文本;建立服务集群;对所述结构化数据文本进行分页和分组;对所述结构化数据文本进行脱敏处理,获得目标数据库;对所述对象数据库执行结构化文本导入,以导入所述目标数据库。2.如权利要求1所述的方法,其特征在于,所述建立服务集群为建立由Web服务管控的服务集群。3.如权利要求1所述的方法,其特征在于,所述对所述结构化数据文本进行脱敏处理,包括所述服务集群通过并行处理对所述结构化数据文本进行脱敏处理。4.如权利要求1所述的方法,其特征在于,所述获取对象数据库的元数据,为通过数据库直连的方式获取对象数据库的元数据。5.一种集群式文本化海量敏感数据处理系统,其特征在于包括:用于获取对象数据库的元数据的装置;用于获取对象数据库的结构化数据文本的装置;服务集群;用于对所述结构化数据文本进行分页和分组的装置;用于对所述结构化数据文本进行脱敏处理获得目标数据库的装置;用于对所述对象数据库执行结构化文...

【专利技术属性】
技术研发人员:谢宇波
申请(专利权)人:四川盛世天成信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1