A cluster of massive text sensitive data processing methods, including metadata object database, structured data access to text objects in the database, the establishment of service cluster, paging and grouping of the structured data on the text, the text into structured data for desensitization treatment, obtain the target database, the object database structure the text import, to import the target database. The collocation database to read and write and read and write text in two ways to form the database of sensitive information desensitization method, using the text reading and writing can be complicated and there is no linear database to read and write concurrency bottleneck characteristics, which makes the import and export data to structured text data in the database, to achieve the hardware overlay, and the hardware overlay it can be a simple expansion of the use of load balancing cluster, can quickly process vast amounts of sensitive data.
【技术实现步骤摘要】
一种集群式文本化海量敏感数据处理方法及系统
本专利技术涉及数据处理
,具体涉及一种集群式文本化海量敏感数据处理方法及系统。
技术介绍
目前对于敏感数据进行处理时,基本分为两种方式。第一种为手工处理方式,即工作人员手工编写SQL程序或存储过程程序,对存储于数据库的敏感数据进行处理。SQL是一种用于访问和处理数据库的标准计算机语言。第二种为工具处理方式,即使用市场上敏感数据处理产品进行处理,这类产品一般为源数据与目标数据库建立数据处理服务,通过源数据库系统所提供的DML接口进行处理。DML的全称为DateManipulationLanguang,即数据操控语言,用于操作数据库对象中包含的数据。以上两种敏感数据处理方式都具有缺陷。手工处理方式无法保证脱敏数据的质量以及无法适应流程化管理,现已逐渐被淘汰。工具处理方式近些年才开始普遍起来,可以保证脱敏工作的质量以及可审计,满足管理需要,但一般都是单服务器对特定数据库进行处理,缺乏可扩展性,因为数据库、网络、硬件等一系列瓶颈等原因,对于海量数据的脱敏处理效率问题越来越凸显。
技术实现思路
本申请提供一种针对海量(TB级或PB级)敏感数据进行快速处理的方法,其解决的技术问题是现有数据量越来越大的数据库进行数据脱敏时,因为硬件、网络、数据库系统所形成的单点瓶颈造成脱敏操作效率太低,难以满足数据量越来越大的数据库系统的数据脱敏工作需要的问题。根据第一方面,一种实施例中提供一种集群式文本化海量敏感数据处理方法,包括获取对象数据库的元数据,获取对象数据库的结构化数据文本,建立服务集群,对所述结构化数据文本进行分页和分组,对所 ...
【技术保护点】
一种集群式文本化海量敏感数据处理方法,其特征在于包括:获取对象数据库的元数据;获取对象数据库的结构化数据文本;建立服务集群;对所述结构化数据文本进行分页和分组;对所述结构化数据文本进行脱敏处理,获得目标数据库;对所述对象数据库执行结构化文本导入,以导入所述目标数据库。
【技术特征摘要】
1.一种集群式文本化海量敏感数据处理方法,其特征在于包括:获取对象数据库的元数据;获取对象数据库的结构化数据文本;建立服务集群;对所述结构化数据文本进行分页和分组;对所述结构化数据文本进行脱敏处理,获得目标数据库;对所述对象数据库执行结构化文本导入,以导入所述目标数据库。2.如权利要求1所述的方法,其特征在于,所述建立服务集群为建立由Web服务管控的服务集群。3.如权利要求1所述的方法,其特征在于,所述对所述结构化数据文本进行脱敏处理,包括所述服务集群通过并行处理对所述结构化数据文本进行脱敏处理。4.如权利要求1所述的方法,其特征在于,所述获取对象数据库的元数据,为通过数据库直连的方式获取对象数据库的元数据。5.一种集群式文本化海量敏感数据处理系统,其特征在于包括:用于获取对象数据库的元数据的装置;用于获取对象数据库的结构化数据文本的装置;服务集群;用于对所述结构化数据文本进行分页和分组的装置;用于对所述结构化数据文本进行脱敏处理获得目标数据库的装置;用于对所述对象数据库执行结构化文...
【专利技术属性】
技术研发人员:谢宇波,
申请(专利权)人:四川盛世天成信息技术有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。