基于模糊哈希算法的海量互联网相似图片检测系统及方法技术方案

技术编号：16700733 阅读：56 留言：0更新日期：2017-12-02 13:05

本发明专利技术涉及一种基于模糊哈希算法相似图片检索方法及系统，其通过分片模块，根据设定的分片值，对图片进行分片；通过哈希算法模块，读取一部分图片内容，用哈希算法计算，得到每一个分片的哈希值；通过压缩映射算法模块，将每片的哈希值进行压缩，映射为一个更短的哈希值；通过连接哈希值算法模块，将每片压缩后的哈希值连在一起，得到该图片的模糊哈希值；最后通过比较算法模块，将待检索的两个图片的模糊哈希值采用加权的汉明距离方法计算相似程度，给出检索结果；解决了图像背景色被改变，或被裁剪、旋转或者某一个像素被修改后相似的图像的比较问题。本发明专利技术能够应用于海量互联网图片中的有害图片发现。

Mass Internet similar image detection system and method based on Fuzzy hash algorithm

The present invention relates to a fuzzy hash algorithm similar image retrieval method and system based on the slice by slice module, according to the set value, the picture slice; through the hash module, read a part of the picture, calculated using the hash algorithm to get every slice of the hash value by compression mapping; the hash algorithm module, each piece of the value of the compression of hash maps to a shorter value; by connecting the hash algorithm module, each piece of compressed hash value together, get the picture of the fuzzy hash value; finally, by comparing the fuzzy hash algorithm module, two images to be retrieved the value of using Hamming distance calculation method of weighted similarity retrieval results are given; to solve the image background color is changed, or by cutting, rotation or a pixel to be modified after similar The comparison of images. The invention can be applied to the discovery of harmful pictures in mass Internet images.

全部详细技术资料下载

【技术实现步骤摘要】
基于模糊哈希算法的海量互联网相似图片检测系统及方法
本专利技术涉及网络信息安全
，特别涉及一种基于模糊哈希算法的海量互联网相似图片检测系统及方法。
技术介绍
现在的图像检索技术基本上还是分为两类，基于文本的图像检索(Text-basedImageRetrieval,TBIR)和基于内容的图像检索(Content-basedImageRetrieval,CBIR)。基于文本的图像检索也就是主要利用文本描述的方式对一幅图像进行特征的描述，建立相应的描述子或者keywords，比如图像的年代、作者、尺寸、编码、名称等一些关键性的信息，将它们进行自动或者人工采集标注，产生图像的索引数据库，然后将用户输入的关键字，进行匹配查找，再返回结果的一种图像检索方式。它易于实现，查准率也较高，但是存在文本描述有限，有些图像特征不好描述甚至无法描述，而且存在不同描述人的较大的主观性，并且需要人工标注，在海量数据的处理中越来越失去应用价值，进而也不能满足检索的要求。基于内容的检索技术是由计算机对图像的特征进行分析，提取特征，如颜色、纹理和形状等，将提取的特征作为向量存入图像数据库，对于输入的检索图片做相同的处理，利用相似性准则计算该查询图片与图像特征库中的每一个特征向量的相似度，根据相似度排序后，输出给定阈值下的检索结果。其优点在于使用机器对图像的内容进行判别性的信息提取，得到特征的描述子，不需要人为地对图像进行文本标注；并且，该过程作为一个近似匹配的过程，对于检索效率的提升也有了很大的贡献，但是对于图像特征的提取上，复杂的算法需要实现从最底层图像特征到高层的语义信息的联系...
基于模糊哈希算法的海量互联网相似图片检测系统及方法

【技术保护点】
一种基于模糊哈希算法相似图片检索方法，其特征在于，该方法包括如下步骤：(1)设定分片值，对图片进行分片；(2)读取一部分图片内容，用哈希算法计算，得到每一个分片的哈希值；(3)将每片的哈希值进行压缩，映射为一个更短的哈希值；(4)将每片压缩后的哈希值连在一起，得到该图片的模糊哈希值；(5)待检索的两个图片的模糊哈希值采用加权的汉明距离方法计算相似程度。

【技术特征摘要】
1.一种基于模糊哈希算法相似图片检索方法，其特征在于，该方法包括如下步骤：(1)设定分片值，对图片进行分片；(2)读取一部分图片内容，用哈希算法计算，得到每一个分片的哈希值；(3)将每片的哈希值进行压缩，映射为一个更短的哈希值；(4)将每片压缩后的哈希值连在一起，得到该图片的模糊哈希值；(5)待检索的两个图片的模糊哈希值采用加权的汉明距离方法计算相似程度。2.根据权利要求1所述的方法，其特征在于，所述步骤(2)中的哈希算法采用滚动哈希算法或MD5哈希算法。3.一种基于模糊...

【专利技术属性】
技术研发人员：徐杰，陈训逊，王博，王东安，包秀国，黄亮，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人