一种基于模糊哈希算法的数字指纹生成及相似度比较方法技术

技术编号:41311032 阅读:31 留言:0更新日期:2024-05-13 14:54
本发明专利技术提供了一种基于模糊哈希算法的数字指纹生成方法,包括:步骤1、根据文件长度与用户所需分片数计算分片大小;步骤2、根据上下文内容对文件进行分片,并判断分片数是否达到用户所需分片数的一半,若是,此时分片大小即为实际分片大小则进入步骤3,否则判断当前分片大小是否为最小分片大小,若是则将最小分片大小作为实际分片大小,否则将当前分片大小减半并重复步骤2;步骤3、计算每一分片的哈希值;步骤4、将所有分片的哈希值连接起来,与实际分块大小共同构成最终的数字指纹。本发明专利技术可在不暴露文件内容的情况下计算不同文件的相似度,解决了小文本文件和低相似度文件的相似度误判问题。

【技术实现步骤摘要】

本专利技术涉及加密领域,特别涉及一种基于模糊哈希算法的数字指纹生成及相似度比较方法


技术介绍

1、哈希技术是一种单向加密技术,可以将任意长度的原始消息映射为固定长度的哈希值,在数字签名、身份认证、密码存储和完整性校验等领域应用广泛。然而,传统的加密哈希算法(例如md5和sha-1)对于输入的变化非常敏感。当输入发生微小的改变时,会导致输出发生不可区分性改变,该性质被称为雪崩效应。由于雪崩效应的存在,传统的哈希算法只能确定两个输入是否完全相同,而不能用于计算两个输入的相似性。

2、不同于传统的哈希技术,模糊哈希技术对于数据的修改有一定的容忍度。模糊哈希可以为两个内容相近但并不完全相同的文件生成相似的哈希值,在恶意软件聚类分析和垃圾邮件检测等领域应用广泛。然而,传统的模糊哈希技术仍在存在一定的缺陷:

3、1)相似度分数计算方式设计不合理。这就导致了整个相似度计算方案针对小文本文件表现不佳,并且在文件相似度较低时存在误判的情况。

4、2)不可对算法进行微调。目前的模糊哈希工具例如ssdeep中对算法的参数进行了固定,满足了工本文档来自技高网...

【技术保护点】

1.一种基于模糊哈希算法的数字指纹生成方法,其特征在于,包括:

2.根据权利要求1所述的基于模糊哈希算法的数字指纹生成方法,其特征在于,所述步骤1中计算分片大小的方法为:

3.根据权利要求2所述的基于模糊哈希算法的数字指纹生成方法,其特征在于,所述步骤2的具体子步骤包括:

4.根据权利要求1所述的基于模糊哈希算法的数字指纹生成方法,其特征在于,所述步骤3中,采用MD5计算分片的哈希值。

5.一种文件相似度比较方法,其特征在于,基于权利要求1~4任一项所述的基于模糊哈希算法的数字指纹生成方法,包括:

6.根据权利要求5所述的文件相...

【技术特征摘要】

1.一种基于模糊哈希算法的数字指纹生成方法,其特征在于,包括:

2.根据权利要求1所述的基于模糊哈希算法的数字指纹生成方法,其特征在于,所述步骤1中计算分片大小的方法为:

3.根据权利要求2所述的基于模糊哈希算法的数字指纹生成方法,其特征在于,所述步骤2的具体子步骤包括:

4.根据权利要求1所述的基于模糊哈希算法的数字指纹生成方法,其特征在于,所述步骤3中,采用md5计算分片的哈希值。

5.一种文件相似度比较方法,其特征在于,基于权利要求1~4任一项所述的基于模糊哈希算法的数字指纹生成方法,包括:

6.根据权利要求5所述的文件相似度比较方法,其特征在于,所述步...

【专利技术属性】
技术研发人员:李亚荣翟一晓白健唐晋安红章
申请(专利权)人:中国电子科技集团公司第三十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1