敏感数据采集方法、装置及数据处理设备制造方法及图纸

技术编号:25550667 阅读:83 留言:0更新日期:2020-09-08 18:49
本发明专利技术实施例提供的敏感数据采集方法、装置及数据处理设备,涉及数据库数据采集领域,所述方法包括:将全部数据库表均匀划分为至少两个子集合,并将子集合发送到各个异步子任务中;子集合中包括至少两个数据库表;异步子任务对子集合中的敏感数据进行采集,获得采集结果;待所有异步子任务采集完对应的子集合中的数据库表后,主线程汇聚异步子任务的采集结果,输出敏感数据信息。通过将数据库表均匀划分为多个子集合,再通过不同的异步子任务同时对子集合中的数据进行采集,减少了SQL语句执行时间,提升了数据库查询性能。

【技术实现步骤摘要】
敏感数据采集方法、装置及数据处理设备
本专利技术涉及数据库数据采集领域,具体而言,涉及一种敏感数据采集方法、装置及数据处理设备。
技术介绍
通常发现数据库中的敏感数据包括如下步骤:先对敏感数据进行分类分级,定义敏感数据规则,配置敏感数据的发现规则及发现策略,然后通过程序连接目标数据库,按序采集每张表一定数量的随机数据,再根据策略库对采集到的数据进行规则模式匹配,分析敏感数据信息,最终形成敏感数据视图。上述实现了数据库的敏感数据查询,但是在性能上存在诸多缺点:数据库随机查询性能很差,在数据量较多的情况下,往往sql执行时间会很久;很多生产数据库表数量非常巨大,几万甚至几十万张表,按序采集和规则模式匹配性能较差,花费时间较长;生产数据库中会存在大量按年、月、日区分的表,表结构内容和数据模式一样,重复采集这些相同结构数据消耗大量资源。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种敏感数据采集方法、装置及数据处理设备。为了实现上述目的,本专利技术实施例采用的技术方案如下:第一方面,本专利技术实施例提供一种敏感数据采集方法,应用于一数据处理设备,所述数据处理设备执行的主线程下包括至少两个异步子任务;所述方法包括:将全部数据库表均匀划分为至少两个子集合,并将所述子集合发送到各个所述异步子任务中;所述子集合中包括至少两个所述数据库表;所述异步子任务对所述子集合中的敏感数据进行采集,获得采集结果;待所有所述异步子任务采集完对应的子集合中的所述数据库表后,所述主线程汇聚所述异步子任务的采集结果,输出敏感数据信息。在可选的实施方式中,所述异步子任务对所述子集合中的敏感数据进行采集,获得采集结果的步骤,包括:所述异步子任务对所述子集合中的数据库表的表名称、表结构进行采集;判断表结构临时库中是否存在所述表结构对应的数据库表;所述表结构临时库用于临时存储被采集的所述数据库表;若否,则将所述数据库表存入所述表结构临时库,并采集所述数据库表的表数据,获得采集结果;若是,则对所述子集合中的下一个数据库表进行所述表名称及所述表结构的采集。在可选的实施方式中,采集所述数据库表的表数据,获得采集结果的步骤,包括:从所述数据库表中随机抽取第一预定数量的表数据作为所述采集结果。在可选的实施方式中,将数据库表均匀划分为至少两个子集合的步骤,包括:获取数据库表的总数量和异步子任务的第一数量;将所述数据库表均匀拆分成所述第一数量个所述子集合。在可选的实施方式中,所述数据处理设备与目标数据库采用第二预定数量的数据源连接;所述目标数据库用于存储数据库表。第二方面,本专利技术实施例提供一种敏感数据采集装置,应用于一数据处理设备,所述数据处理设备执行的主线程下包括至少两个异步子任务;所述敏感数据采集装置包括:处理模块,用于将全部数据库表均匀划分为至少两个子集合,并将所述子集合发送到各个所述异步子任务中;所述子集合中包括至少两个所述数据库表;以及还用于执行所述异步子任务对所述子集合中的敏感数据进行采集,获得采集结果;以及还用于待所有所述异步子任务采集完对应的子集合中的所述数据库表后,执行所述主线程汇聚所述异步子任务的采集结果,输出敏感数据信息。在可选的实施方式中,所述敏感数据采集装置还包括:判断模块;所述处理模块,还用于执行所述异步子任务对所述子集合中的数据库表的表名称、表结构进行采集;所述判断模块,用于判断表结构临时库中是否存在所述表结构对应的数据库表;所述表结构临时库用于临时存储被采集的所述数据库表;若否,则将所述数据库表存入所述表结构临时库,并采集所述数据库表的表数据,获得采集结果;若是,则对所述子集合中的下一个数据库表进行所述表名称及所述表结构的采集。在可选的实施方式中,所述处理模块,还用于从所述数据库表中随机抽取第一预定数量的表数据作为所述采集结果。在可选的实施方式中,所述处理模块将数据库表均匀划分为至少两个子集合的方式,包括:获取数据库表的总数量和异步子任务的第一数量;将所述数据库表均匀拆分成所述第一数量个所述子集合。第三方面,本专利技术实施例提供一种数据处理设备,其包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现前述的敏感数据采集方法。本专利技术实施例提供的敏感数据采集方法、装置及数据处理设备,所述方法包括:将全部数据库表均匀划分为至少两个子集合,并将子集合发送到各个异步子任务中;子集合中包括至少两个数据库表;异步子任务对子集合中的敏感数据进行采集,获得采集结果;待所有异步子任务采集完对应的子集合中的数据库表后,主线程汇聚异步子任务的采集结果,输出敏感数据信息。通过将数据库表均匀划分为多个子集合,再通过不同的异步子任务同时对子集合中的数据进行采集,减少了SQL语句执行时间,提升了数据库查询性能。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本专利技术实施例提供的一种敏感数据采集方法的流程示意图。图2示出了本专利技术实施例提供的另一种敏感数据采集方法的流程示意图。图3示出了本专利技术实施例提供的一种敏感数据采集的功能模块图。图4示出了本专利技术实施例提供的一种数据处理设备的功能模块图。图标:100-敏感数据采集装置;110-处理模块;120-判断模块;200-数据处理设备;210-存储器;220-处理器;230-通信模块。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的本文档来自技高网...

【技术保护点】
1.一种敏感数据采集方法,应用于一数据处理设备,其特征在于,所述数据处理设备执行的主线程下包括至少两个异步子任务;所述方法包括:/n将全部数据库表均匀划分为至少两个子集合,并将所述子集合发送到各个所述异步子任务中;所述子集合中包括至少两个所述数据库表;/n所述异步子任务对所述子集合中的敏感数据进行采集,获得采集结果;/n待所有所述异步子任务采集完对应的子集合中的所述数据库表后,所述主线程汇聚所述异步子任务的采集结果,输出敏感数据信息。/n

【技术特征摘要】
1.一种敏感数据采集方法,应用于一数据处理设备,其特征在于,所述数据处理设备执行的主线程下包括至少两个异步子任务;所述方法包括:
将全部数据库表均匀划分为至少两个子集合,并将所述子集合发送到各个所述异步子任务中;所述子集合中包括至少两个所述数据库表;
所述异步子任务对所述子集合中的敏感数据进行采集,获得采集结果;
待所有所述异步子任务采集完对应的子集合中的所述数据库表后,所述主线程汇聚所述异步子任务的采集结果,输出敏感数据信息。


2.根据权利要求1所述的方法,其特征在于,所述异步子任务对所述子集合中的敏感数据进行采集,获得采集结果的步骤,包括:
所述异步子任务对所述子集合中的数据库表的表名称、表结构进行采集;
判断表结构临时库中是否存在所述表结构对应的数据库表;所述表结构临时库用于临时存储被采集的所述数据库表;
若否,则将所述数据库表存入所述表结构临时库,并采集所述数据库表的表数据,获得采集结果;若是,则对所述子集合中的下一个数据库表进行所述表名称及所述表结构的采集。


3.根据权利要求2所述的方法,其特征在于,采集所述数据库表的表数据,获得采集结果的步骤,包括:
从所述数据库表中随机抽取第一预定数量的表数据作为所述采集结果。


4.根据权利要求1所述的方法,其特征在于,将数据库表均匀划分为至少两个子集合的步骤,包括:
获取数据库表的总数量和异步子任务的第一数量;
将所述数据库表均匀拆分成所述第一数量个所述子集合。


5.根据权利要求1所述的方法,其特征在于,
所述数据处理设备与目标数据库采用第二预定数量的数据源连接;所述目标数据库用于存储数据库表。


6.一种敏感数据采集装...

【专利技术属性】
技术研发人员:赵磊夏云洋黄哲苏入刘树权
申请(专利权)人:南京星邺汇捷网络科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1