基于模糊哈希算法的海量互联网相似图片检测系统及方法技术方案

技术编号:16700733 阅读:56 留言:0更新日期:2017-12-02 13:05
本发明专利技术涉及一种基于模糊哈希算法相似图片检索方法及系统,其通过分片模块,根据设定的分片值,对图片进行分片;通过哈希算法模块,读取一部分图片内容,用哈希算法计算,得到每一个分片的哈希值;通过压缩映射算法模块,将每片的哈希值进行压缩,映射为一个更短的哈希值;通过连接哈希值算法模块,将每片压缩后的哈希值连在一起,得到该图片的模糊哈希值;最后通过比较算法模块,将待检索的两个图片的模糊哈希值采用加权的汉明距离方法计算相似程度,给出检索结果;解决了图像背景色被改变,或被裁剪、旋转或者某一个像素被修改后相似的图像的比较问题。本发明专利技术能够应用于海量互联网图片中的有害图片发现。

Mass Internet similar image detection system and method based on Fuzzy hash algorithm

The present invention relates to a fuzzy hash algorithm similar image retrieval method and system based on the slice by slice module, according to the set value, the picture slice; through the hash module, read a part of the picture, calculated using the hash algorithm to get every slice of the hash value by compression mapping; the hash algorithm module, each piece of the value of the compression of hash maps to a shorter value; by connecting the hash algorithm module, each piece of compressed hash value together, get the picture of the fuzzy hash value; finally, by comparing the fuzzy hash algorithm module, two images to be retrieved the value of using Hamming distance calculation method of weighted similarity retrieval results are given; to solve the image background color is changed, or by cutting, rotation or a pixel to be modified after similar The comparison of images. The invention can be applied to the discovery of harmful pictures in mass Internet images.

【技术实现步骤摘要】
基于模糊哈希算法的海量互联网相似图片检测系统及方法
本专利技术涉及网络信息安全
,特别涉及一种基于模糊哈希算法的海量互联网相似图片检测系统及方法。
技术介绍
现在的图像检索技术基本上还是分为两类,基于文本的图像检索(Text-basedImageRetrieval,TBIR)和基于内容的图像检索(Content-basedImageRetrieval,CBIR)。基于文本的图像检索也就是主要利用文本描述的方式对一幅图像进行特征的描述,建立相应的描述子或者keywords,比如图像的年代、作者、尺寸、编码、名称等一些关键性的信息,将它们进行自动或者人工采集标注,产生图像的索引数据库,然后将用户输入的关键字,进行匹配查找,再返回结果的一种图像检索方式。它易于实现,查准率也较高,但是存在文本描述有限,有些图像特征不好描述甚至无法描述,而且存在不同描述人的较大的主观性,并且需要人工标注,在海量数据的处理中越来越失去应用价值,进而也不能满足检索的要求。基于内容的检索技术是由计算机对图像的特征进行分析,提取特征,如颜色、纹理和形状等,将提取的特征作为向量存入图像数据库,对于输入的检索图片做相同的处理,利用相似性准则计算该查询图片与图像特征库中的每一个特征向量的相似度,根据相似度排序后,输出给定阈值下的检索结果。其优点在于使用机器对图像的内容进行判别性的信息提取,得到特征的描述子,不需要人为地对图像进行文本标注;并且,该过程作为一个近似匹配的过程,对于检索效率的提升也有了很大的贡献,但是对于图像特征的提取上,复杂的算法需要实现从最底层图像特征到高层的语义信息的联系显得有点困难,因此检索准确性上不是很高。在海量数字图像数据再互联网上泛滥之后,对于图像的快速和有效检索就显得日益重要。传统的方法有基于树的索引结构,如k-d树,但它仅仅在处理低维数据时可以有效提高检索速度,当数据维度超过20维时,其检索效率就接近于穷举的搜索方式。因此,目前针对高维数据的快速检索问题,图像哈希技术在上世纪九十年代末诞生。对于训练图像和查询图像都需要进行特征的提取,之后通过哈希函数的转化,压缩为一定数目的二进制编码序列,该过程称为哈希编码。然后将得到的哈希编码,进行汉明距离的计算,在设置的汉明距离阈值范围内再对候选样本做欧式距离排序,也就是重排(一般论文这一步都是没有的),最后返回检索到的图像,这些得到的图像称为查询图像的近似最近邻。对于哈希函数的期望,我们希望其满足以下两个必要的条件:(1)对于内容相似的图像,其哈希编码的序列能够尽可能相同或者十分接近;(2)对于内容不同的图像,其哈希编码的序列能够尽可能不同。加密哈希算法是常用的哈希算法。目前采用的MD5,SHA1,SHA256这些哈希算法对于未被篡改的文件非常有效。但是,如果数据有细微变化,加密哈希算法都会导致雪崩效应,从而造成新文件的哈希值完全不同于原始文件哈希值。对于图像来说,如果其背景色被改变,或被裁剪、旋转或者某一个像素被修改,那么都无法在图像哈希库中匹配。可见传统哈希算法并不具有实用性。
技术实现思路
本专利技术的目的提供一种基于模糊哈希算法的海量互联网相似图片检测系统及方法,可实现图片内容被部分篡改后,图片相似性的判定问题。本专利技术的技术方案是,一种基于模糊哈希算法相似图片检索方法,其特征在于,该方法包括如下步骤:(1)设定分片值,对图片进行分片;(2)读取一部分图片内容,用哈希算法计算,得到每一个分片的哈希值;(3)将每片的哈希值进行压缩,映射为一个更短的哈希值;(4)将每片压缩后的哈希值连在一起,得到该图片的模糊哈希值;(5)待检索的两个图片的模糊哈希值采用加权的汉明距离方法计算相似程度。进一步的,步骤(2)中的哈希算法采用滚动哈希算法或MD5哈希算法。一种基于模糊哈希算法相似图片检索系统,该系统包括:分片模块,用以根据设定的分片值,对图片进行分片;哈希算法模块,用以读取一部分图片内容,用哈希算法计算,得到每一个分片的哈希值;压缩映射算法模块,用以将每片的哈希值进行压缩,映射为一个更短的哈希值;连接哈希值算法模块,用以将每片压缩后的哈希值连在一起,得到该图片的模糊哈希值;比较算法模块,待检索的两个图片的模糊哈希值采用加权的汉明距离方法计算相似程度。进一步的,所述哈希算法采用滚动哈希算法或MD5哈希算法。本专利技术的有益效果在于:本专利技术对于基于图片视觉相似性而不是文件精确性的检索系统,解决了图像背景色被改变,或被裁剪、旋转或者某一个像素被修改后相似的图像的比较问题。本专利技术能够应用于海量互联网图片中的有害图片发现。附图说明图1为本专利技术图片模糊哈希值计算流程图。图2为本专利技术基于模糊哈希算法的相似图片检索流程图。具体实施方式下面,结合附图对于本专利技术进行如下详细说明:如图1和图2所示,选择待检索的图片库,将图片和设定的分片值输入分片模块,分片模块根据设定的分片值,对图片进行分片,分片结果输送到哈希算法模块;哈希算法模块,接收分片模块发送的分片结果,读取一部分图片内容,采用滚动哈希算法或MD5哈希算法进行计算,得到每一个分片的哈希值,并将计算结果送入压缩映射算法模块,压缩映射算法模块将每片的哈希值进行压缩,映射为一个更短的哈希值,并将压缩结果送入连接哈希值算法模块,连接哈希值算法模块将每片压缩后的哈希值连在一起,得到该图片的模糊哈希值,模糊哈希值最后被送入哈希值数据库,当有检索命令时,将待检索图片的模糊哈希值送入比较算法模块,较算法模块采用加权的汉明距离方法计算相似程度,最终给出检索结果。所述仅是本专利技术的具体实例,任何基于本专利技术方法基础的等效变换,均属于本专利技术保护范围之内。本文档来自技高网
...
基于模糊哈希算法的海量互联网相似图片检测系统及方法

【技术保护点】
一种基于模糊哈希算法相似图片检索方法,其特征在于,该方法包括如下步骤:(1)设定分片值,对图片进行分片;(2)读取一部分图片内容,用哈希算法计算,得到每一个分片的哈希值;(3)将每片的哈希值进行压缩,映射为一个更短的哈希值;(4)将每片压缩后的哈希值连在一起,得到该图片的模糊哈希值;(5)待检索的两个图片的模糊哈希值采用加权的汉明距离方法计算相似程度。

【技术特征摘要】
1.一种基于模糊哈希算法相似图片检索方法,其特征在于,该方法包括如下步骤:(1)设定分片值,对图片进行分片;(2)读取一部分图片内容,用哈希算法计算,得到每一个分片的哈希值;(3)将每片的哈希值进行压缩,映射为一个更短的哈希值;(4)将每片压缩后的哈希值连在一起,得到该图片的模糊哈希值;(5)待检索的两个图片的模糊哈希值采用加权的汉明距离方法计算相似程度。2.根据权利要求1所述的方法,其特征在于,所述步骤(2)中的哈希算法采用滚动哈希算法或MD5哈希算法。3.一种基于模糊...

【专利技术属性】
技术研发人员:徐杰陈训逊王博王东安包秀国黄亮
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1