System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种敏感数据识别方法及装置制造方法及图纸_技高网

一种敏感数据识别方法及装置制造方法及图纸

技术编号:41065549 阅读:4 留言:0更新日期:2024-04-24 11:19
本发明专利技术提供了一种敏感数据识别方法及装置,该方法包括:将待识别数据拆分成多份数据,分别确定该多份数据的哈希HASH值,将该多份数据的哈希值拼接得到目标HASH值;将该目标HASH值与预先构建的布隆Bloom结构中映射的多个敏感数据的哈希值进行对比,得到对比结果,该对比结果为该目标哈希值是否存在于该Bloom结构中;根据该对比结果识别该待识别数据是否为敏感数据,可以解决相关技术中敏感数据识别速度慢、比对效率低、识别准确率低的问题,采用多BLOOM结构方式,将文件拆分成多份,将多份数据的哈希值拼接得到目标HASH值,将Bloom结构中映射的敏感数据的哈希值进行对比,根据对比结果确定是否为敏感数据,可以大幅提升敏感数据的识别效率与准确率。

【技术实现步骤摘要】

本专利技术涉及数据处理领域,具体而言,涉及一种敏感数据识别方法及装置


技术介绍

1、随着互联网技术的发展,敏感数据泄露已经成为信息安全保护领域的关键问题,如果能快速发现已经泄露到互联网的数据,是当前信息安全领域务必要解决的问题。

2、为解决此问题,业界广泛采用文本比对的方式。这种方法是,首先从百度文件等互联网文件共享平台抓取疑似敏感数据,然后将爬取到的疑似敏感数据与管理者手中有敏感数据进行比对,如果相同则认为是敏感数据,发生的数据泄露。如果不相同,则不是敏感数据。

3、在实践过程中,由于文件量较大,这种逐字比对的方式,速度慢效率低。而且,由于文件都会经过上传者或多或少的修改,往往只是增加一个字符,就会造成比对结果不准确,数据识别准确率很低。

4、针对相关技术中敏感数据识别速度慢、文件比对效率低、文件识别准确率低的问题,尚未提出解决方案。


技术实现思路

1、本专利技术实施例提供了一种敏感数据识别方法及装置,以至少解决相关技术中敏感数据识别速度慢、比对效率低、识别准确率低的问题。

2、根据本专利技术的一个实施例,提供了一种敏感数据识别方法,所述方法包括:

3、将待识别数据拆分成多份数据,分别确定所述多份数据的哈希hash值,将所述多份数据的哈希值拼接得到目标hash值;

4、将所述目标hash值与预先构建的布隆bloom结构中映射的多个敏感数据的哈希值进行对比,得到对比结果,其中,所述对比结果为所述目标哈希值是否存在于所述bloom结构中;

5、根据所述对比结果识别所述待识别数据是否为敏感数据。

6、可选地,将待识别数据拆分成多份数据,分别确定所述多份数据的哈希hash值,将所述多份数据的哈希值拼接得到目标hash值包括:

7、将所述待识别数据顺序拆分成a份数据,采用sm3算法为每一份数据生成256位长度的敏感数据hash值,使用sm3算法循环次a次,生成a个hash值,并将4个hash值拼接得到1024位长度的第一目标hash值;

8、将所述待识别数据顺序拆分成b份数据,采用sm3算法为每一份数据生成256位长度的敏感数据hash值,使用sm3算法循环次b次生成b个hash值,并将所述b个hash值拼接得到10240位长度的第二目标hash值;

9、将所述待识别数据顺序拆分成c份数据,采用sm3算法为每一份数据生成256位长度的敏感数据hash值,使用sm3算法循环次c次生成c个hash值,并将所述c个hash值拼接得到102400位长度的第三目标hash值;

10、其中,a、b、c为正整数,a小于b,b小于c,所述目标hash值包括所述第一目标hash值、所述第二目标hash值及所述第三目标hash值。

11、可选地,将所述目标哈希值与预先构建的布隆bloom结构中映射的多个敏感数据的哈希值进行对比,得到对比结果包括:

12、所述bloom结构包括1024位的bloom结构1、10240位的bloom结构2及102400位的bloom结构3;

13、将所述第一目标hash值与所述bloom结构1中的hash值进行对比,得到第一对比结果,若所述第一对比结果为所述第一目标hash值存在于所述bloom结构1中,对比结束;

14、若所述第一对比结果为所述第一目标hash值不存在于所述bloom结构1中,将所述第二目标hash值与所述bloom结构2中的hash值进行对比,得到第二对比结果,若所述第二对比结果为所述第二目标hash值存在于所述bloom结构2中,对比结束;

15、若所述第二对比结果为所述第二目标hash值不存在于所述bloom结构2中,将所述第三目标hash值与所述bloom结构3中的hash值进行对比,得到第三对比结果。

16、可选地,根据所述对比结果识别所述待识别数据是否为敏感数据包括:

17、在所述第一对比结果为所述第一目标hash值存在于所述bloom结构1中,确定所述待识别数据为敏感数据;

18、在所述第一对比结果为所述第一目标hash值不存在于所述bloom结构1中,所述第二对比结果为所述第二目标hash值存在于所述bloom结构2中,确定所述待识别数据为敏感数据;

19、在所述第一对比结果为所述第一目标hash值不存在于所述bloom结构1中且所述第二对比结果为所述第二目标hash值不存在于所述bloom结构2中,所述第三对比结果为所述第三目标hash值存在于所述bloom结构3中,确定所述待识别数据为敏感数据;

20、在所述第一对比结果为所述第一目标hash值不存在于所述bloom结构1中,所述第二对比结果为所述第二目标hash值不存在于所述bloom结构2中且所述第三对比结果为所述第三目标hash值不存在于所述bloom结构3中,确定所述待识别数据为非敏感数据。

21、可选地,在将所述待识别数据拆分成多份数据之前,所述方法还包括:

22、构建所述bloom结构;

23、将所述多个敏感数据映射到所述bloom结构中。

24、可选地,将所述多个敏感数据映射到所述bloom结构中包括:

25、将所述多个敏感数据映射到1024位的bloom结构1中;

26、将所述多个敏感数据映射到10240位的bloom结构2中;

27、将所述多个敏感数据映射到102400位的bloom结构3中,其中,所述bloom结构包括所述bloom结构1、所述bloom结构2及所述bloom结构3。

28、可选地,将所述多个敏感数据映射到bloom结构1中包括:

29、将所述多个敏感数据顺序拆分成a份数据;

30、采用sm3算法为每一份数据生成256位长度的敏感数据hash值;

31、使用sm3算法循环次a次,生成a个hash值,将所述a个hash值拼接得到1024位长度的第一hash值;

32、在所述bloom结构1的链表linktable中确定所述第一hash值对应地址的第一位置,在所述第一位置写入1。

33、可选地,将所述多个敏感数据映射到10240位的bloom结构2中包括:

34、将所述敏感数据顺序拆分成b份数据;

35、采用sm3算法为每一份数据生成256位长度的敏感数据hash值;

36、使用sm3算法循环次b次生成b个hash值,将所述b个hash值拼接得到10240位长度的第二hash值;

37、在所述bloom结构2的链表linktable中确定所述第二hash值对应地址的第二位置,在所述第二位置写入1。

38、可选地,将所述敏感数据映射到102400位的bloom结构3中包括:

39、将所述敏感数据顺序拆分成c份数据;...

【技术保护点】

1.一种敏感数据识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,将待识别数据拆分成多份数据,分别确定所述多份数据的哈希HASH值,将所述多份数据的哈希值拼接得到目标HASH值包括:

3.根据权利要求2所述的方法,其特征在于,将所述目标哈希值与预先构建的布隆Bloom结构中映射的多个敏感数据的哈希值进行对比,得到对比结果包括:

4.根据权利要求3所述的方法,其特征在于,根据所述对比结果识别所述待识别数据是否为敏感数据包括:

5.根据权利要求1所述的方法,其特征在于,在将所述待识别数据拆分成多份数据之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,将所述多个敏感数据映射到所述Bloom结构中包括:

7.根据权利要求6所述的方法,其特征在于,将所述多个敏感数据映射到Bloom结构1中包括:

8.根据权利要求6所述的方法,其特征在于,将所述多个敏感数据映射到10240位的Bloom结构2中包括:

9.根据权利要求6所述的方法,其特征在于,将所述敏感数据映射到102400位的BLOOM结构3中包括:

10.一种敏感数据识别装置,其特征在于,所述装置包括:

11.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至9任一项中所述的方法。

12.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至9中任一项所述的方法。

...

【技术特征摘要】

1.一种敏感数据识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,将待识别数据拆分成多份数据,分别确定所述多份数据的哈希hash值,将所述多份数据的哈希值拼接得到目标hash值包括:

3.根据权利要求2所述的方法,其特征在于,将所述目标哈希值与预先构建的布隆bloom结构中映射的多个敏感数据的哈希值进行对比,得到对比结果包括:

4.根据权利要求3所述的方法,其特征在于,根据所述对比结果识别所述待识别数据是否为敏感数据包括:

5.根据权利要求1所述的方法,其特征在于,在将所述待识别数据拆分成多份数据之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,将所述多个敏感数据映射到所述bloom结构中包括:

7.根...

【专利技术属性】
技术研发人员:孙亚东王锐谭咏茂蔚晨吴海洋张荣臻向小佳丁永建李璠
申请(专利权)人:光大科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1