【技术实现步骤摘要】
垃圾图片识别方法及系统
本专利技术涉及图像处理技术,尤其涉及一种垃圾图片识别方法及系统。
技术介绍
作为互联网蓬勃发展的负面产物一垃圾信息,因其涉及暴力、诈骗、广告、色情、迷信等内容已经严重影响了人们的日常生活。在垃圾信息中以垃圾图片的形式最为多样,相比于垃圾文本信息,其识别的难度也更高。为净化网络环境,垃圾图片的识别已成为研究的热点。目前,广泛采用的垃圾图片识别方法主要依赖于图片特征值的提取。具体地,提取待识别图片的颜色直方图,判断该颜色直方图与垃圾图片库中的样本垃圾图片的颜色直方图是否为一类;若是,则确定待识别图片识别为垃圾图片。然而,上述方法对垃圾图片的变动适应性较差。例如,若将垃圾图片的局部稍作改动,则该图片的颜色直方图将发生很大变化。因此,对于背景经过剪切、旋转、颜色变化等处理的垃圾图片上述方法很难将其准确识别。此外,现有技术中还存在一种通过计算待识别图片MD5 (Message DigestAlgorithm MD5)值的垃圾图片识别方法,该方法将待识别图片的MD5值与垃圾图片库中的样本垃圾图片的MD5值进行匹配的方式来识别垃圾图片。但是,该方法同样存在图片变动适应性差的缺点。将待识别图片的局部稍作变化,获取的该图片MD5值就会不同,也就无法对其进行有效的识别。
技术实现思路
本专利技术实施例提供了一种垃圾图片识别方法及系统,用以提高垃圾图片识别的准确性。根据本专利技术的一个方面,提供了一种垃圾图片识别方法,包括:提取待识别图片的至少一个局部特征向量;将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别;其中,所述待识别图片 ...
【技术保护点】
一种垃圾图片识别方法,其特征在于,包括:提取待识别图片的至少一个局部特征向量;将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别;其中,所述待识别图片与任意一个样本垃圾图片的比对识别过程具体包括:对于所述待识别图片的每个局部特征向量,将该局部特征向量作为待判定局部特征向量,并分别计算该待判定局部特征向量到该样本垃圾图片的各局部特征向量的欧氏距离;若计算出的欧氏距离中至少有一个欧氏距离小于第一阈值,则将该待判定局部特征向量确定为与该样本垃圾图片的特征相匹配的局部特征向量;统计所述待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量,若统计出的数量大于预设的第二阈值,则将所述待识别图片识别为与该样本垃圾图片相类似的垃圾图片。
【技术特征摘要】
1.一种垃圾图片识别方法,其特征在于,包括: 提取待识别图片的至少一个局部特征向量; 将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别;其中,所述待识别图片与任意一个样本垃圾图片的比对识别过程具体包括: 对于所述待识别图片的每个局部特征向量,将该局部特征向量作为待判定局部特征向量,并分别计算该待判定局部特征向量到该样本垃圾图片的各局部特征向量的欧氏距离;若计算出的欧氏距离中至少有一个欧氏距离小于第一阈值,则将该待判定局部特征向量确定为与该样本垃圾图片的特征相匹配的局部特征向量;统计所述待识别图片的各局部特征向量中与该样本垃圾图片的特征相匹配的局部特征向量的数量,若统计出的数量大于预设的第二阈值,则将所述待识别图片识别为与该样本垃圾图片相类似的垃圾图片。2.如权利要求1所述的方法,其特征在于,在所述统计出与该样本垃圾图片的特征相匹配的局部特征向量的数量后,还包括: 若统计出的数量小于或等于所述第二阈值,则确定所述待识别图片与该样本垃圾图片不相类似;并从样本垃圾图片库中未被比对的样本垃圾图片中选取任意一个样本垃圾图片与所述待识别图片进行比对识别。3.如权利要求2所述的方法,其特征在于,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括: 若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似, 则: 对所述待识别图片进行光学字符识别OCR处理,提取所述待识别图片中的文本信息;在垃圾文字库中查询所述文本信息,若查询到与所述文本信息相匹配的信息,则将所述待识别图片识别为垃圾图片。4.如权利要求2所述的方法,其特征在于,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括: 若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,则: 提取所述待识别图片的肤色比例与肤色连通域的个数; 若所述肤色比例大于等于第三阈值,并且所述肤色连通域的个数大于等于第四阈值,则将所述待识别图片识别为垃圾图片。5.如权利要求2至4任一所述的方法,其特征在于,在所述将所述待识别图片与样本垃圾图片库中存储的样本垃圾图片进行比对识别后,还包括: 若确定出所述待识别图片与所述样本垃圾图片库中的各样本垃圾图片均不相类似,则: 从所述待识别图片的二维码中解析出二维码信息; 在垃圾二维码信息库中查询所述二维码信息,若查询到与所述二维码信息相匹配的信息,则将所述待识别图片识别为垃圾图片。6.一种垃圾图片识别系统,其特征在于,包括: 向量提取模块,用于提取待识别图片的至少一个局部特征向量; 图片选取模块,用于从样本垃圾图片库中选取样本垃圾图片,并输出当前选取的样本垃圾图片及其各局部特征向量; 图片对比模块,用于针对所述图片选取模块输出的样本垃圾图片,对于所述向量...
【专利技术属性】
技术研发人员:刘洁,
申请(专利权)人:新浪网技术中国有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。