System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据处理领域,具体而言,涉及一种敏感数据识别方法及装置。
技术介绍
1、随着互联网技术的发展,敏感数据泄露已经成为信息安全保护领域的关键问题,如果能快速发现已经泄露到互联网的数据,是当前信息安全领域务必要解决的问题。
2、为解决此问题,业界广泛采用文本比对的方式。这种方法是,首先从百度文件等互联网文件共享平台抓取疑似敏感数据,然后将爬取到的疑似敏感数据与管理者手中有敏感数据进行比对,如果相同则认为是敏感数据,发生的数据泄露。如果不相同,则不是敏感数据。
3、在实践过程中,由于文件量较大,这种逐字比对的方式,速度慢效率低。而且,由于文件都会经过上传者或多或少的修改,往往只是增加一个字符,就会造成比对结果不准确,数据识别准确率很低。
4、针对相关技术中敏感数据识别速度慢、文件比对效率低、文件识别准确率低的问题,尚未提出解决方案。
技术实现思路
1、本专利技术实施例提供了一种敏感数据识别方法及装置,以至少解决相关技术中敏感数据识别速度慢、比对效率低、识别准确率低的问题。
2、根据本专利技术的一个实施例,提供了一种敏感数据识别方法,所述方法包括:
3、将待识别数据拆分成多份数据,分别确定所述多份数据的哈希hash值,将所述多份数据的哈希值拼接得到目标hash值;
4、将所述目标hash值与预先构建的布隆bloom结构中映射的多个敏感数据的哈希值进行对比,得到对比结果,其中,所述对比结果为所述目标哈希值是否
5、根据所述对比结果识别所述待识别数据是否为敏感数据。
6、可选地,将待识别数据拆分成多份数据,分别确定所述多份数据的哈希hash值,将所述多份数据的哈希值拼接得到目标hash值包括:
7、将所述待识别数据顺序拆分成a份数据,采用sm3算法为每一份数据生成256位长度的敏感数据hash值,使用sm3算法循环次a次,生成a个hash值,并将4个hash值拼接得到1024位长度的第一目标hash值;
8、将所述待识别数据顺序拆分成b份数据,采用sm3算法为每一份数据生成256位长度的敏感数据hash值,使用sm3算法循环次b次生成b个hash值,并将所述b个hash值拼接得到10240位长度的第二目标hash值;
9、将所述待识别数据顺序拆分成c份数据,采用sm3算法为每一份数据生成256位长度的敏感数据hash值,使用sm3算法循环次c次生成c个hash值,并将所述c个hash值拼接得到102400位长度的第三目标hash值;
10、其中,a、b、c为正整数,a小于b,b小于c,所述目标hash值包括所述第一目标hash值、所述第二目标hash值及所述第三目标hash值。
11、可选地,将所述目标哈希值与预先构建的布隆bloom结构中映射的多个敏感数据的哈希值进行对比,得到对比结果包括:
12、所述bloom结构包括1024位的bloom结构1、10240位的bloom结构2及102400位的bloom结构3;
13、将所述第一目标hash值与所述bloom结构1中的hash值进行对比,得到第一对比结果,若所述第一对比结果为所述第一目标hash值存在于所述bloom结构1中,对比结束;
14、若所述第一对比结果为所述第一目标hash值不存在于所述bloom结构1中,将所述第二目标hash值与所述bloom结构2中的hash值进行对比,得到第二对比结果,若所述第二对比结果为所述第二目标hash值存在于所述bloom结构2中,对比结束;
15、若所述第二对比结果为所述第二目标hash值不存在于所述bloom结构2中,将所述第三目标hash值与所述bloom结构3中的hash值进行对比,得到第三对比结果。
16、可选地,根据所述对比结果识别所述待识别数据是否为敏感数据包括:
17、在所述第一对比结果为所述第一目标hash值存在于所述bloom结构1中,确定所述待识别数据为敏感数据;
18、在所述第一对比结果为所述第一目标hash值不存在于所述bloom结构1中,所述第二对比结果为所述第二目标hash值存在于所述bloom结构2中,确定所述待识别数据为敏感数据;
19、在所述第一对比结果为所述第一目标hash值不存在于所述bloom结构1中且所述第二对比结果为所述第二目标hash值不存在于所述bloom结构2中,所述第三对比结果为所述第三目标hash值存在于所述bloom结构3中,确定所述待识别数据为敏感数据;
20、在所述第一对比结果为所述第一目标hash值不存在于所述bloom结构1中,所述第二对比结果为所述第二目标hash值不存在于所述bloom结构2中且所述第三对比结果为所述第三目标hash值不存在于所述bloom结构3中,确定所述待识别数据为非敏感数据。
21、可选地,在将所述待识别数据拆分成多份数据之前,所述方法还包括:
22、构建所述bloom结构;
23、将所述多个敏感数据映射到所述bloom结构中。
24、可选地,将所述多个敏感数据映射到所述bloom结构中包括:
25、将所述多个敏感数据映射到1024位的bloom结构1中;
26、将所述多个敏感数据映射到10240位的bloom结构2中;
27、将所述多个敏感数据映射到102400位的bloom结构3中,其中,所述bloom结构包括所述bloom结构1、所述bloom结构2及所述bloom结构3。
28、可选地,将所述多个敏感数据映射到bloom结构1中包括:
29、将所述多个敏感数据顺序拆分成a份数据;
30、采用sm3算法为每一份数据生成256位长度的敏感数据hash值;
31、使用sm3算法循环次a次,生成a个hash值,将所述a个hash值拼接得到1024位长度的第一hash值;
32、在所述bloom结构1的链表linktable中确定所述第一hash值对应地址的第一位置,在所述第一位置写入1。
33、可选地,将所述多个敏感数据映射到10240位的bloom结构2中包括:
34、将所述敏感数据顺序拆分成b份数据;
35、采用sm3算法为每一份数据生成256位长度的敏感数据hash值;
36、使用sm3算法循环次b次生成b个hash值,将所述b个hash值拼接得到10240位长度的第二hash值;
37、在所述bloom结构2的链表linktable中确定所述第二hash值对应地址的第二位置,在所述第二位置写入1。
38、可选地,将所述敏感数据映射到102400位的bloom结构3中包括:
39、将所述敏感数据顺序拆分成c份数据;本文档来自技高网...
【技术保护点】
1.一种敏感数据识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,将待识别数据拆分成多份数据,分别确定所述多份数据的哈希HASH值,将所述多份数据的哈希值拼接得到目标HASH值包括:
3.根据权利要求2所述的方法,其特征在于,将所述目标哈希值与预先构建的布隆Bloom结构中映射的多个敏感数据的哈希值进行对比,得到对比结果包括:
4.根据权利要求3所述的方法,其特征在于,根据所述对比结果识别所述待识别数据是否为敏感数据包括:
5.根据权利要求1所述的方法,其特征在于,在将所述待识别数据拆分成多份数据之前,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,将所述多个敏感数据映射到所述Bloom结构中包括:
7.根据权利要求6所述的方法,其特征在于,将所述多个敏感数据映射到Bloom结构1中包括:
8.根据权利要求6所述的方法,其特征在于,将所述多个敏感数据映射到10240位的Bloom结构2中包括:
9.根据权利要求6所述的方法,其特征在于,将所述敏
10.一种敏感数据识别装置,其特征在于,所述装置包括:
11.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至9任一项中所述的方法。
12.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至9中任一项所述的方法。
...【技术特征摘要】
1.一种敏感数据识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,将待识别数据拆分成多份数据,分别确定所述多份数据的哈希hash值,将所述多份数据的哈希值拼接得到目标hash值包括:
3.根据权利要求2所述的方法,其特征在于,将所述目标哈希值与预先构建的布隆bloom结构中映射的多个敏感数据的哈希值进行对比,得到对比结果包括:
4.根据权利要求3所述的方法,其特征在于,根据所述对比结果识别所述待识别数据是否为敏感数据包括:
5.根据权利要求1所述的方法,其特征在于,在将所述待识别数据拆分成多份数据之前,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,将所述多个敏感数据映射到所述bloom结构中包括:
7.根...
【专利技术属性】
技术研发人员:孙亚东,王锐,谭咏茂,蔚晨,吴海洋,张荣臻,向小佳,丁永建,李璠,
申请(专利权)人:光大科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。