一种基于Pulsar的分布式敏感数据识别方法及系统技术方案

技术编号:32462625 阅读:23 留言:0更新日期:2022-02-26 08:54
本发明专利技术提供了一种基于Pulsar的分布式敏感数据识别方法及系统,包括:评估目标数据源的规模和大小,并根据评估结果划分并发布数据采集任务;去目标数据源拉取当前子任务的划分的数据并将数据存入Redis;从Redis拉取数据并根据规则进行敏感数据识别;根据Redis执行Lua脚本的原子性来实现限速API接口,以控制敏感数据识别系统对目标数据源的访问压力。本专利提出了一种基于Pulsar的分布式敏感数据识别方法及系统,将整个流程分为数据源评估并且任务拆分、数据采集和敏感数据识别三个模块并封装成Docker,通过基于Pulsar的分布式识别引擎,利用其可动态横向拓展而不需要复杂操作和额外开支的特性,对海量数据进行快速、高效的敏感数据识别。敏感数据识别。敏感数据识别。

【技术实现步骤摘要】
一种基于Pulsar的分布式敏感数据识别方法及系统


[0001]本专利技术涉及计算机信息安全
,具体涉及一种基于Pulsar的分布式敏感数据识别方法及系统。

技术介绍

[0002]随着移动互联网、云计算、物联网、工业互联网等技术的高速发展,人们进入到了大数据时代。当人们在享受大数据带来一切便利的同时,数据安全问题也随之暴露出来;近年来,数据泄露事件频发,给国家、企业和个人都造成了巨大损失。
[0003]敏感数据识别的一般步骤是首先对目标数据源进行评估,然后划分识别任务,最后由识别引擎根据识别规则进行敏感数据识别。在海量的数据背景下,如何快速、高效的进行敏感数据发现就显得尤为重要。

技术实现思路

[0004]本专利技术的目的在于提供一种基于Pulsar的分布式敏感数据识别方法及系统,以期解决
技术介绍
中存在的技术问题。
[0005]为了实现上述目的,本专利技术采用以下技术方案:
[0006]一种基于Pulsar的分布式敏感数据识别方法,包括:
[0007]评估目标数据源的规模和大小,并根据评估结本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Pulsar的分布式敏感数据识别方法,其特征在于,包括:评估目标数据源的规模和大小,并根据评估结果划分并发布数据采集任务;去目标数据源拉取当前子任务的划分的数据并将数据存入Redis;从Redis拉取数据并根据规则进行敏感数据识别;根据Redis执行Lua脚本的原子性来实现限速API接口,以控制敏感数据识别系统对目标数据源的访问压力。2.根据权利要求1所述的一种基于Pulsar的分布式敏感数据识别方法,其特征在于,所述评估目标数据源的规模和大小,并根据评估结果划分并发布数据采集任务,包括:数据源评估模块收到评估任务后先去请求Qpslimit限速接口,校验通过后再去评估目标数据源有哪些表名、字段名和字段类型,有多少字段数量,然后根据配置文件配置的子任务数来划分数据采集任务,最后向Pulsar中发布数据采集任务。3.根据权利要求1所述的一种基于Pulsar的分布式敏感数据识别方法,其特征在于,所述去目标数据源拉取当前子任务的划分的数据并将数据存入Redis,包括:数据采集模块根据收到的数据采集任务先去请求Qpslimit限速接口,校验通过后再去目标数据源拉取当前子任务的划分的数据并将数据进行矩阵转置然后按字段为单位以Hash类型存入Redis中,然后向Pulsar中发布敏感数据识别任务。4.根据权利要求1所述的一种基于Pulsar的分布式敏感数据识别方法,其特征在于,所述从Redis拉取数据并根据规则进行敏感数据识别,包括:敏感数据识别模块收到任务后根据key从Redis中拉取被识别数据,根据识别规则进行敏感数据发现,识别引擎支持机...

【专利技术属性】
技术研发人员:杨洋龚致
申请(专利权)人:四川启睿克科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1