垃圾图片识别方法及系统技术方案

技术编号:10420830 阅读:104 留言:0更新日期:2014-09-12 11:44
本发明专利技术公开了一种垃圾图片识别方法及系统,所述方法包括:提取待识别图片的至少一个局部特征向量;将该待识别图片与样本垃圾图片库中的样本垃圾图片进行比对识别;其中,该待识别图片与任意一个样本垃圾图片的比对识别过程具体包括:对于该待识别图片的每个局部特征向量,分别计算该局部特征向量到该样本垃圾图片的各局部特征向量的欧氏距离;若欧氏距离中至少有一个欧氏距离小于第一阈值,则将该局部特征向量确定为与该样本垃圾图片的特征相匹配的局部特征向量;统计与该样本垃圾图片的特征相匹配的局部特征向量的数量,若统计出的数量大于预设的第二阈值,则将该待识别图片识别为垃圾图片。应用本发明专利技术,可以提高垃圾图片识别的准确率。

【技术实现步骤摘要】
垃圾图片识别方法及系统
本专利技术涉及图像处理技术,尤其涉及一种垃圾图片识别方法及系统。
技术介绍
作为互联网蓬勃发展的负面产物一垃圾信息,因其涉及暴力、诈骗、广告、色情、迷信等内容已经严重影响了人们的日常生活。在垃圾信息中以垃圾图片的形式最为多样,相比于垃圾文本信息,其识别的难度也更高。为净化网络环境,垃圾图片的识别已成为研究的热点。目前,广泛采用的垃圾图片识别方法主要依赖于图片特征值的提取。具体地,提取待识别图片的颜色直方图,判断该颜色直方图与垃圾图片库中的样本垃圾图片的颜色直方图是否为一类;若是,则确定待识别图片识别为垃圾图片。然而,上述方法对垃圾图片的变动适应性较差。例如,若将垃圾图片的局部稍作改动,则该图片的颜色直方图将发生很大变化。因此,对于背景经过剪切、旋转、颜色变化等处理的垃圾图片上述方法很难将其准确识别。此外,现有技术中还存在一种通过计算待识别图片MD5 (Message DigestAlgorithm MD5)值的垃圾图片识别方法,该方法将待识别图片的MD5值与垃圾图片库中的样本垃圾图片的MD5值进行匹配的方式来识别垃圾图片。但是,该方法同样存在图片变动适应性差的缺点。将待识别图片的局部稍作变化,获取的该图片MD5值就会不同,也就无法对其进行有效的识别。
技术实现思路
本专利技术实施例提供了一种垃圾图片识别方法及系统,用以提高垃圾图片识别的准确性。根据本专利技术的一个方面,提供了一种垃圾图片识别方法,包括:提取待识别图片的至少一个局部特征向量;将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别;其中,所述待识别图片与任意一个样本垃圾图片的比对识别过程具体包括:对于所述待识别图片的每个局部特征向量,将该局部特征向量作为待判定局部特征向量,并分别计算该待判定局部特征向量到该样本垃圾图片的各局部特征向量的欧氏距离;若计算出的欧氏距离中至少有一个欧氏距离小于第一阈值,则将该待判定局部特征向量确定为与该样本垃圾图片的特征相匹配的局部特征向量;统计所述待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量,若统计出的数量大于预设的第二阈值,则将所述待识别图片识别为与该样本垃圾图片相类似的垃圾图片。较佳地,在所述统计出与该样本垃圾图片的特征相匹配的局部特征向量的数量后,还包括:若统计出的数量小于或等于所述第二阈值,则确定所述待识别图片与该样本垃圾图片不相类似;并从样本垃圾图片库中未被比对的样本垃圾图片中选取任意一个样本垃圾图片与所述待识别图片进行比对识别。较佳地,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括:若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,则:对所述待识别图片进行光学字符识别OCR处理,提取所述待识别图片中的文本信息;在垃圾文字库中查询所述文本信息,若查询到与所述文本信息相匹配的信息,则将所述待识别图片识别为垃圾图片。较佳地,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括:若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,则:提取所述待识别图片的肤色比例与肤色连通域的个数;若所述肤色比例大于等于第三阈值,并且所述肤色连通域的个数大于等于第四阈值,则将所述待识别图片识别为垃圾图片。较佳地,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括:若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,则:从所述待识别图片的二维码中解析出二维码信息;在垃圾二维码信息库中查询所述二维码信息,若查询到与所述二维码信息相匹配的信息,则将所述待识别图片识别为垃圾图片。根据本专利技术的另一个方面,还提供了一种垃圾图片识别系统,包括:向量提取模块,用于提取待识别图片的至少一个局部特征向量;图片选取模块,用于从样本垃圾图片库中选取样本垃圾图片,并输出当前选取的样本垃圾图片及其各局部特征向量;图片对比模块,用于针对所述图片选取模块输出的样本垃圾图片,对于所述向量提取模块输出的所述待识别图片的每个局部特征向量,将该局部特征向量作为待判定局部特征向量,并分别计算该待判定局部特征向量到该样本垃圾图片的各局部特征向量的欧氏距离;若计算出的欧氏距离中至少有一个欧氏距离小于第一阈值,则将该待判定局部特征向量确定为与该样本垃圾图片的特征相匹配的局部特征向量;统计所述待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量,并将统计出的数量和该样本垃圾图片进行输出;第一垃圾图片确定模块,用于接收所述图片对比模块输出的样本垃圾图片、以及所述待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量,若接收的数量大于预设的第二阈值,则将所述待识别图片识别为与该样本垃圾图片相类似的垃圾图片。较佳地,所述第一垃圾图片确定模块还用于针对所述图片选取模块输出的样本垃圾图片,若从所述图片对比模块接收的与该样本垃圾图片的特征相匹配的局部特征向量的数量小于或等于所述第二阈值,则确定所述待识别图片与该样本垃圾图片不相类似,并向所述图片选取模块返回继续选取通知;以及所述图片选取模块还用于根据所述第一垃圾图片确定模块输出的继续选取通知,从所述样本垃圾图片库中未被选取的样本垃圾图片中选取样本垃圾图片,并将当前选取的样本垃圾图片及其各局部特征向量进行输出;若所述样本垃圾图片库中不存在未被选取的样本垃圾图片,则确定所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,并输出第一识别通知。较佳地,所述系统还包括:文字信息提取模块,用于在接收到所述图片选取模块输出的第一识别通知后,对所述待识别图片进行光学字符识别OCR处理,提取所述待识别图片中的文本信息;第二垃圾图片确定模块,用于在垃圾文字库中查询所述文字信息提取模块提取出的所述文本信息,若查询到与所述文本信息相匹配的信息,则将所述待识别图片识别为垃圾图片。较佳地,所述系统还包括:肤色特征提取模块,用于在接收到所述图片选取模块输出的第一识别通知后,提取所述待识别图片的肤色比例与肤色连通域的个数;第三垃圾图片确定模块,用于将所述肤色特征提取模块提取出的肤色比例和肤色连通域的个数,分别与第三阈值和第四阈值进行比较,若所述肤色比例大于等于第三阈值,并且所述肤色连通域的个数大于等于第四阈值,则将所述待识别图片识别为垃圾图片。较佳地,所述系统还包括:二维码识别模块,用于在接收到所述图片选取模块输出的第一识别通知后,从所述待识别图片的二维码中解析出二维码信息;第四垃圾图片确定模块,用于在垃圾二维码信息库中查询所述二维码识别模块提取出所述二维码信息,若查询到与所述二维码信息相匹配的信息,则将所述待识别图片识别为垃圾图片。本专利技术提供的技术方案中,对于样本垃圾图片库中的每个样本垃圾图片,通过计算待识别图片的局部特征向量到该样本垃圾图片的局部特征向量的欧氏距离,确定出与该样本垃圾图片相匹配的局部特征向量。若与该样本垃圾图片相匹配的局部特征向量总数超过阈值,则将待识别图片识别为垃圾图片。这样,对于经过局部特殊处理的垃圾图片,具有很好的识别效果,从而提高识别的准确性。【附图说明】本文档来自技高网...

【技术保护点】
一种垃圾图片识别方法,其特征在于,包括:提取待识别图片的至少一个局部特征向量;将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别;其中,所述待识别图片与任意一个样本垃圾图片的比对识别过程具体包括:对于所述待识别图片的每个局部特征向量,将该局部特征向量作为待判定局部特征向量,并分别计算该待判定局部特征向量到该样本垃圾图片的各局部特征向量的欧氏距离;若计算出的欧氏距离中至少有一个欧氏距离小于第一阈值,则将该待判定局部特征向量确定为与该样本垃圾图片的特征相匹配的局部特征向量;统计所述待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量,若统计出的数量大于预设的第二阈值,则将所述待识别图片识别为与该样本垃圾图片相类似的垃圾图片。

【技术特征摘要】
1.一种垃圾图片识别方法,其特征在于,包括: 提取待识别图片的至少一个局部特征向量; 将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别;其中,所述待识别图片与任意一个样本垃圾图片的比对识别过程具体包括: 对于所述待识别图片的每个局部特征向量,将该局部特征向量作为待判定局部特征向量,并分别计算该待判定局部特征向量到该样本垃圾图片的各局部特征向量的欧氏距离;若计算出的欧氏距离中至少有一个欧氏距离小于第一阈值,则将该待判定局部特征向量确定为与该样本垃圾图片的特征相匹配的局部特征向量;统计所述待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量,若统计出的数量大于预设的第二阈值,则将所述待识别图片识别为与该样本垃圾图片相类似的垃圾图片。2.如权利要求1所述的方法,其特征在于,在所述统计出与该样本垃圾图片的特征相匹配的局部特征向量的数量后,还包括: 若统计出的数量小于或等于所述第二阈值,则确定所述待识别图片与该样本垃圾图片不相类似;并从样本垃圾图片库中未被比对的样本垃圾图片中选取任意一个样本垃圾图片与所述待识别图片进行比对识别。3.如权利要求2所述的方法,其特征在于,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括: 若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似, 则: 对所述待识别图片进行光学字符识别OCR处理,提取所述待识别图片中的文本信息;在垃圾文字库中查询所述文本信息,若查询到与所述文本信息相匹配的信息,则将所述待识别图片识别为垃圾图片。4.如权利要求2所述的方法,其特征在于,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括: 若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,则: 提取所述待识别图片的肤色比例与肤色连通域的个数; 若所述肤色比例大于等于第三阈值,并且所述肤色连通域的个数大于等于第四阈值,则将所述待识别图片识别为垃圾图片。5.如权利要求2至4任一所述的方法,其特征在于,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括: 若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,则: 从所述待识别图片的二维码中解析出二维码信息; 在垃圾二维码信息库中查询所述二维码信息,若查询到与所述二维码信息相匹配的信息,则将所述待识别图片识别为垃圾图片。6.一种垃圾图片识别系统,其特征在于,包括: 向量提取模块,用于提取待识别图片的至少一个局部特征向量; 图片选取模块,用于从样本垃圾图片库中选取样本垃圾图片,并输出当前选取的样本垃圾图片及其各局部特征向量; 图片对比模块,用于针对所述图片选取模块输出的样本垃圾图片,对于所述向量...

【专利技术属性】
技术研发人员:刘洁
申请(专利权)人:新浪网技术中国有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1