一种数据库脱敏方法、装置及脱敏设备制造方法及图纸

技术编号:21225085 阅读:27 留言:0更新日期:2019-05-29 05:49
本发明专利技术实施例涉及数据处理技术领域,例如涉及一种数据库脱敏方法、装置、脱敏设备及存储介质。方法包括:提取数据,提取数据基于分布式系统执行;对数据进行分析,获得分析结果,对数据进行分析基于分布式系统执行;根据分析结果对数据进行脱敏,获得脱敏后的数据;由此能够实现对大数据快速脱敏。

A database desensitization method, device and desensitization equipment

The embodiment of the present invention relates to the technical field of data processing, such as a database desensitization method, device, desensitization device and storage medium. The methods include: extracting data, extracting data based on distributed system execution; analyzing data, obtaining analysis results, analyzing data based on distributed system execution; desensitizing data according to the analysis results, obtaining desensitized data; thus, fast desensitization of large data can be achieved.

【技术实现步骤摘要】
一种数据库脱敏方法、装置及脱敏设备
本专利技术涉及数据处理
,尤其是涉及一种数据库脱敏方法、装置、脱敏设备及存储介质。
技术介绍
随着大数据时代的发展,数据成为国家基础性战略资源,大数据所蕴含的巨大商业价值也愈发受到各方关注,然而大数据往往包含用户大量的敏感信息,而未经处理直接发布或共享原始数据,将不可避免地泄露用户隐私信息。现如今很多数据库和数据库安全厂商推出了相应的数据脱敏产品,传统的数据脱敏产品基于单计算节点下运行,计算速度慢,难以应对当前海量数据的计算需求。
技术实现思路
本专利技术的主要目的在于提供一种数据库脱敏方法、装置、脱敏设备及存储介质,能够实现对大数据快速脱敏。第一方面,本专利技术实施例提供了一种数据库脱敏方法,所述方法包括:提取数据,所述提取数据基于分布式系统执行;对所述数据进行分析,获得分析结果,所述对所述数据进行分析基于分布式系统执行;根据所述分析结果对所述数据进行脱敏,获得脱敏后的数据。在一些实施例中,所述提取数据,包括:使用数据库连接工具获取数据并存储至分布式文件系统中,再从所述分布式文件系统提取数据;及使用订阅消息系统提取数据和/或接收采集任务的数据流。在一些实施例中,所述方法还包括:获取样本数据,并基于所述样本数据提取样本特征向量;将所述样本特征向量及对应的标签输入决策树模型和/或神经网络模型进行学习,获得分类模型。在一些实施例中,所述将所述样本特征向量及对应的标签输入决策树模型和/或神经网络模型进行学习,获得分类模型,包括:将所述样本特征向量及对应的标签输入决策树模型进行分裂计算,获得分类模型;和/或,将所述样本特征向量及对应的标签输入神经网络模型进行迭代训练,获得分类模型。在一些实施例中,所述对所述数据进行分析,获得分析结果,包括:获取数据;利用所述数据仓库工具和SparkSQL模块对数据进行处理并提取特征向量;将所述特征向量输入所述分类模型,获得数据类标签。在一些实施例中,所述对所述数据进行分析,获得分析结果,包括:获取数据;把数据流以时间为单元切分成数据块,对每个数据块均进行脱敏处理,获得脱敏后的数据;将所述脱敏后的数据提供给外部应用系统使用。第二方面,本方面实施例还提供了一种数据脱敏装置,所述装置包括:提取模块,用于提取数据,所述提取数据基于分布式系统执行;分析模块,用于对所述数据进行分析,获得分析结果,所述对所述数据进行分析基于分布式系统执行;脱敏模块,用于根据所述分析对所述数据进行脱敏,获得脱敏后的数据。在一些实施例中,所述提取模块还包括:获取模块:用于获取样本数据,并基于所述样本数据提取样本特征向量;输入模块:用于将所述样本特征向量及对应的标签输入决策树模型和/或神经网络模型进行学习,获得分类模型。在一些实施例中,所述提取模块具体用于:使用数据库连接工具获取数据并存储至分布式文件系统中,再从所述分布式文件系统提取数据;及使用订阅消息系统提取数据和/或接收采集任务的数据流;利用数据仓库工具和SparkSQL模块对数据进行处理并提取特征向量。在一些实施例中,所述脱敏模块具体用于:把数据流以时间为单元切分成数据块,对每个数据块均进行脱敏处理,获得脱敏后的数据。在一些实施例中,所述获取模块具体用于:获取数据。在一些实施例中,所述输入模块具体用于:将所述样本特征向量及对应的标签输入决策树模型进行分裂计算,获得分类模型;和/或,将所述样本特征向量及对应的标签输入神经网络模型进行迭代训练,获得分类模型;将所述特征向量输入所述分类模型,获得数据类标签。第三方面,本方面实施例还提供了一种脱敏设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的方法。第四方面,本方面实施例还提供了一种非易失性计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,当所述计算机可执行指令被脱敏设备所执行时,使所述脱敏设备执行上述的方法。本专利技术实施例提供的数据库脱敏方法,通过提取数据,所述提取数据基于分布式系统执行,并对所述数据进行分析,获得分析结果,所述对所述数据进行分析基于分布式系统执行,然后根据所述分析结果对所述数据继续脱敏,获得脱敏后的数据,基于分布式系统能够实现对大数据快速脱敏。附图说明一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。图1是本专利技术数据库脱敏方法的一个实施例的流程图;图2是本专利技术数据库脱敏方法的一个实施例中模型训练的流程图;图3是本专利技术数据库脱敏装置的一个实施例的结构框图;图4是本专利技术数据库脱敏装置的另一个实施例的结构框图;图5是本专利技术脱敏设备的一个实施例的硬件结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,如果不冲突,本专利技术实施例中的各个特征可以相互结合,均在本专利技术的保护范围之内。另外,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。再者,本专利技术所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定,仅是对功能和作用基本相同的相同项或相似项进行区分。如图1所示,本专利技术实施例提供了一种数据库脱敏方法,该方法包括但不限于以下步骤:步骤102,提取数据,所述提取数据基于分布式系统执行。具体的,数据库脱敏分为数据库静态脱敏和数据库动态脱敏。数据库静态脱敏用于将数据抽取出生产环境脱敏后分发至测试、开发、培训、数据分析等场景,脱敏效果好。数据库动态脱敏用于不脱离生产环境,对敏感数据的查询和调用结果进行实时脱敏,适用面广且更加灵活,由于数据库动态脱敏一般用于访问敏感数据当时对数据进行脱敏,需要较好的实时计算能力,因此,在本实施例中,采用上述两种不同的脱敏方式,并基于分布式计算框架Spark和Hadoop,实现对数据库脱敏。Spark是专为大规模数据处理而设计的快速通用计算引擎。Hadoop是一个分布式系统基础架构。提取数据分为两种情况,一种是基于数据库静态脱敏系统提取数据,另一种是基于数据库动态脱敏系统提取数据。数据库静态脱敏系统提取数据通过数据库连接工具JDBC(JavaDataBaseConnectivity:Java数据库连接)连接原始数据库,从所述原始数据库中获取数据存储至分布式文件系统HDFS(HadoopDistributedFileSystem,分布式文件系统)中,之后再从所述分布式文件系统HDFS中提取数据。需要说明的是,基于数据库静态脱敏系统提取数据时还可以通过其他的工具连接原始数据库获取数据存储至分布式文件系统中,无需拘泥于本实施例中的限定。基于数据库动态脱敏系统提取数据通过订阅消息系本文档来自技高网...

【技术保护点】
1.一种数据库脱敏方法,其特征在于,所述方法包括:提取数据,所述提取数据基于分布式系统执行;对所述数据进行分析,获得分析结果,所述对所述数据进行分析基于分布式系统执行;根据所述分析结果对所述数据进行脱敏,获得脱敏后的数据。

【技术特征摘要】
1.一种数据库脱敏方法,其特征在于,所述方法包括:提取数据,所述提取数据基于分布式系统执行;对所述数据进行分析,获得分析结果,所述对所述数据进行分析基于分布式系统执行;根据所述分析结果对所述数据进行脱敏,获得脱敏后的数据。2.根据权利要求1所述的方法,其特征在于,所述提取数据,包括:使用数据库连接工具获取数据并存储至分布式文件系统中,再从所述分布式文件系统提取数据;及使用订阅消息系统提取数据和/或接收采集任务的数据流。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取样本数据,并基于所述样本数据提取样本特征向量;将所述样本特征向量及对应的标签输入决策树模型和/或神经网络模型进行学习,获得分类模型。4.根据权利要求3所述的方法,其特征在于,所述将所述样本特征向量及对应的标签输入决策树模型和/或神经网络模型进行学习,获得分类模型,包括:将所述样本特征向量及对应的标签输入决策树模型进行分裂计算,获得分类模型;和/或,将所述样本特征向量及对应的标签输入神经网络模型进行迭代训练,获得分类模型。5.根据权利要求4所述的方法,其特征在于,所述对所述数据进行分析,获得分析结果,包括:获取数据;利用数据仓库工具和SparkSQL模块对数据进行处理并提取特征向量;将所述特征向量输入所述分类模型,获得数据类标签。6.根据权利要求...

【专利技术属性】
技术研发人员:彭徵刘华春
申请(专利权)人:深圳昂楷科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1