【技术实现步骤摘要】
本专利技术涉及加密领域,特别涉及一种基于模糊哈希算法的数字指纹生成及相似度比较方法。
技术介绍
1、哈希技术是一种单向加密技术,可以将任意长度的原始消息映射为固定长度的哈希值,在数字签名、身份认证、密码存储和完整性校验等领域应用广泛。然而,传统的加密哈希算法(例如md5和sha-1)对于输入的变化非常敏感。当输入发生微小的改变时,会导致输出发生不可区分性改变,该性质被称为雪崩效应。由于雪崩效应的存在,传统的哈希算法只能确定两个输入是否完全相同,而不能用于计算两个输入的相似性。
2、不同于传统的哈希技术,模糊哈希技术对于数据的修改有一定的容忍度。模糊哈希可以为两个内容相近但并不完全相同的文件生成相似的哈希值,在恶意软件聚类分析和垃圾邮件检测等领域应用广泛。然而,传统的模糊哈希技术仍在存在一定的缺陷:
3、1)相似度分数计算方式设计不合理。这就导致了整个相似度计算方案针对小文本文件表现不佳,并且在文件相似度较低时存在误判的情况。
4、2)不可对算法进行微调。目前的模糊哈希工具例如ssdeep中对算法的参数
...【技术保护点】
1.一种基于模糊哈希算法的数字指纹生成方法,其特征在于,包括:
2.根据权利要求1所述的基于模糊哈希算法的数字指纹生成方法,其特征在于,所述步骤1中计算分片大小的方法为:
3.根据权利要求2所述的基于模糊哈希算法的数字指纹生成方法,其特征在于,所述步骤2的具体子步骤包括:
4.根据权利要求1所述的基于模糊哈希算法的数字指纹生成方法,其特征在于,所述步骤3中,采用MD5计算分片的哈希值。
5.一种文件相似度比较方法,其特征在于,基于权利要求1~4任一项所述的基于模糊哈希算法的数字指纹生成方法,包括:
6.根据权
...【技术特征摘要】
1.一种基于模糊哈希算法的数字指纹生成方法,其特征在于,包括:
2.根据权利要求1所述的基于模糊哈希算法的数字指纹生成方法,其特征在于,所述步骤1中计算分片大小的方法为:
3.根据权利要求2所述的基于模糊哈希算法的数字指纹生成方法,其特征在于,所述步骤2的具体子步骤包括:
4.根据权利要求1所述的基于模糊哈希算法的数字指纹生成方法,其特征在于,所述步骤3中,采用md5计算分片的哈希值。
5.一种文件相似度比较方法,其特征在于,基于权利要求1~4任一项所述的基于模糊哈希算法的数字指纹生成方法,包括:
6.根据权利要求5所述的文件相似度比较方法,其特征在于,所述步...
【专利技术属性】
技术研发人员:李亚荣,翟一晓,白健,唐晋,安红章,
申请(专利权)人:中国电子科技集团公司第三十研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。