一种基于深度学习的图片垃圾识别方法技术

技术编号:27975725 阅读:25 留言:0更新日期:2021-04-06 14:10
本发明专利技术公开了一种基于深度学习的图片垃圾识别方法,包括以下步骤;步骤一、图像预处理;步骤二、图像分割;步骤三、图像尺寸调整;步骤四、对图像通过紧缩重排,形成新的图像字符;步骤五、将图像字符带入BP网络中,开展网络训练工作,从而将样本中的待识别的特征向量提取出来,随后进行识别工作得到潜在垃圾图片;步骤六、进行第二次过滤实现精确分类;步骤七、进行第三次过滤对垃圾图片进一步分类。本发明专利技术利用SVM算法结合图像底层特征实现粗分类,利用最近邻分类算法实现垃圾邮件精确分类,提出将图像型垃圾图片做进一步分类,提取垃圾图片的文本区域信息,利用最近邻分类算法,把垃圾图像分为正常类和垃圾类,可以进一步细分过滤垃圾图片。

【技术实现步骤摘要】
一种基于深度学习的图片垃圾识别方法
本专利技术涉及计算机图片处理
,具体为一种基于深度学习的图片垃圾识别方法。
技术介绍
21世纪,互联网不仅可以作为人与人之间的一种通讯方式,还成了资源传输和共享手段,而手机作为终端处理器,不仅仅局限于通讯和发短信,人们还可以利用手机更加快捷地获得所需要的信息,显然互联网对于人们的生活方式起到了不少的促进作用,但互联网相比传统的媒体传播介质有所区别,互联网显得更加难以管理。各种不良信息诸如垃圾图片等,也在互联网上肆意传输,这给网络带来了很多不健康的信息,对网络使用者造成了伤害;在电子邮件领域,垃圾邮件的花样不断翻新,需要反垃圾系统不断的更新技术来识别垃圾邮件,其中垃圾图片的识别和过滤难度更大,图片垃圾或垃圾图片是指,在一张图片上含有被认为是垃圾信息的文字等,例如卖发票、垃圾广告等信息,鉴于此,提出一种基于深度学习的图片垃圾识别方法。
技术实现思路
本专利技术的目的在于提供一种基于深度学习的图片垃圾识别方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于深度学习的图片垃圾识别方法,包括以下步骤;步骤一、图像预处理;S1、利用微软图像函数库的dibapi.h及dibapi.cpp对图像数据进行读取;S2、通过赋予图片像素点中的R、G、B各自一个加权系数,使各点分量的值相同,实现图片灰度化;S3、对灰度图像进行二值化,根据自适应阈值法,将灰度图像的像素分化为黑或白两种颜色;步骤二、图像分割;S1、调整图像的整体倾斜度,按照由下至上的顺序,扫描图像,记录下第一个遇到的黑色的像素点;S2、改变扫描的方向,按照由上而下,将第一个遇到的黑色像素点记录下来,这两个点之间的距离就是图像大致的高度范围;S3、进行图像分析,从左至右对图像进行扫描,发现第一个黑色像素点之后,将此点作为图像分割的起始部位,接着进行扫描,无黑色像素点时停止完成分割;步骤三、图像尺寸调整;S1、对图像的归一化处理心扫描,之后对字符的尺寸进行调整,使其尺寸相同;S2、对比系统要求高度与字符高度,将需变换的系数计算出来,依据此系数进行相应的高度变换,宽度也按照此方法进行变化按照插值的方法,将新图像里的点映射到原图像中,完成尺寸统一;步骤四、对图像通过紧缩重排,形成新的图像字符;步骤五、将图像字符带入BP网络中,开展网络训练工作,从而将样本中的待识别的特征向量提取出来,随后进行识别工作得到潜在垃圾图片;步骤六、进行第二次过滤实现精确分类;步骤七、进行第三次过滤对垃圾图片进一步分类。优选的,步骤五中,训练过程为:将图片分为潜在垃圾图片和正常图片,并提取图片的梯度、颜色和LBP特征作为SVM分类器的输入数据进行模型训练,并保存参数。优选的,步骤五中,识别过程为:提取图片的梯度、颜色和LBP特征与保存的参数进行对比进行判断图片并输出识别结果。优选的,步骤六中,第二次过滤的步骤为:S1、构建垃圾图片库;S2、提取垃圾图片的SIFT特征,将得到的SIFT特征进行K均值聚类得到视觉词汇表;S3、将步骤五中得到潜在垃圾图片与垃圾图片库中所有的图片进行相似性度量;S4、通过实验的方法确定合适的阈值,小于设定的阈值判断为垃圾图片。优选的,步骤七中,第三次过滤的步骤为:S1、利用OCR软件提取第二次过滤得到的垃圾图片的文本信息;S2、将所提取的文本信息与词库中的敏感词进行一一对比;S3、将对比结果在词库中匹配最多的归属到相应的类别。本专利技术提出的一种基于深度学习的图片垃圾识别方法,有益效果在于:本专利技术利用SVM算法结合图像底层特征实现粗分类,利用最近邻分类算法实现垃圾邮件精确分类,提出将图像型垃圾图片做进一步分类,提取垃圾图片的文本区域信息,利用最近邻分类算法,把垃圾图像分为正常类和垃圾类,可以进一步细分过滤垃圾图片。附图说明图1为本专利技术步骤五中训练过程示意图;图2为本专利技术步骤五中识别过程示意图图3为本专利技术步骤六的示意图;图4为本专利技术步骤七的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-4,本专利技术提供一种技术方案:一种基于深度学习的图片垃圾识别方法,包括以下步骤;步骤一、图像预处理;S1、利用微软图像函数库的dibapi.h及dibapi.cpp对图像数据进行读取;S2、通过赋予图片像素点中的R、G、B各自一个加权系数,使各点分量的值相同,实现图片灰度化;S3、对灰度图像进行二值化,根据自适应阈值法,将灰度图像的像素分化为黑或白两种颜色;步骤二、图像分割;S1、调整图像的整体倾斜度,按照由下至上的顺序,扫描图像,记录下第一个遇到的黑色的像素点;S2、改变扫描的方向,按照由上而下,将第一个遇到的黑色像素点记录下来,这两个点之间的距离就是图像大致的高度范围;S3、进行图像分析,从左至右对图像进行扫描,发现第一个黑色像素点之后,将此点作为图像分割的起始部位,接着进行扫描,无黑色像素点时停止完成分割;步骤三、图像尺寸调整;S1、对图像的归一化处理心扫描,之后对字符的尺寸进行调整,使其尺寸相同;S2、对比系统要求高度与字符高度,将需变换的系数计算出来,依据此系数进行相应的高度变换,宽度也按照此方法进行变化按照插值的方法,将新图像里的点映射到原图像中,完成尺寸统一;步骤四、对图像通过紧缩重排,形成新的图像字符;步骤五、将图像字符带入BP网络中,开展网络训练工作,从而将样本中的待识别的特征向量提取出来,随后进行识别工作得到潜在垃圾图片;训练过程为:将图片分为潜在垃圾图片和正常图片,并提取图片的梯度、颜色和LBP特征作为SVM分类器的输入数据进行模型训练,并保存参数;识别过程为:提取图片的梯度、颜色和LBP特征与保存的参数进行对比进行判断图片并输出识别结果;步骤六、进行第二次过滤实现精确分类;S1、构建垃圾图片库;S2、提取垃圾图片的SIFT特征,将得到的SIFT特征进行K均值聚类得到视觉词汇表;S3、将步骤五中得到潜在垃圾图片与垃圾图片库中所有的图片进行相似性度量;S4、通过实验的方法确定合适的阈值,小于设定的阈值判断为垃圾图片;步骤七、进行第三次过滤对垃圾图片进一步分类,S1、利用OCR软件提取第二次过滤得到的垃圾图片的文本信息;S2、将所提取的文本信息与词库中的敏感词进行一一对比;S3、将对比结果在词库中匹配最多的归属到相应的类别。尽管已经示出和描述了本专利技术的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本专利技术的原理和精本文档来自技高网...

【技术保护点】
1.一种基于深度学习的图片垃圾识别方法,其特征在于:包括以下步骤;/n步骤一、图像预处理;/nS1、利用微软图像函数库的dibapi.h及dibapi.cpp对图像数据进行读取;/nS2、通过赋予图片像素点中的R、G、B各自一个加权系数,使各点分量的值相同,实现图片灰度化;/nS3、对灰度图像进行二值化,根据自适应阈值法,将灰度图像的像素分化为黑或白两种颜色;/n步骤二、图像分割;/nS1、调整图像的整体倾斜度,按照由下至上的顺序,扫描图像,记录下第一个遇到的黑色的像素点;/nS2、改变扫描的方向,按照由上而下,将第一个遇到的黑色像素点记录下来,这两个点之间的距离就是图像大致的高度范围;/nS3、进行图像分析,从左至右对图像进行扫描,发现第一个黑色像素点之后,将此点作为图像分割的起始部位,接着进行扫描,无黑色像素点时停止完成分割;/n步骤三、图像尺寸调整;/nS1、对图像的归一化处理心扫描,之后对字符的尺寸进行调整,使其尺寸相同;/nS2、对比系统要求高度与字符高度,将需变换的系数计算出来,依据此系数进行相应的高度变换,宽度也按照此方法进行变化按照插值的方法,将新图像里的点映射到原图像中,完成尺寸统一;/n步骤四、对图像通过紧缩重排,形成新的图像字符;/n步骤五、将图像字符带入BP网络中,开展网络训练工作,从而将样本中的待识别的特征向量提取出来,随后进行识别工作得到潜在垃圾图片;/n步骤六、进行第二次过滤实现精确分类;/n步骤七、进行第三次过滤对垃圾图片进一步分类。/n...

【技术特征摘要】
1.一种基于深度学习的图片垃圾识别方法,其特征在于:包括以下步骤;
步骤一、图像预处理;
S1、利用微软图像函数库的dibapi.h及dibapi.cpp对图像数据进行读取;
S2、通过赋予图片像素点中的R、G、B各自一个加权系数,使各点分量的值相同,实现图片灰度化;
S3、对灰度图像进行二值化,根据自适应阈值法,将灰度图像的像素分化为黑或白两种颜色;
步骤二、图像分割;
S1、调整图像的整体倾斜度,按照由下至上的顺序,扫描图像,记录下第一个遇到的黑色的像素点;
S2、改变扫描的方向,按照由上而下,将第一个遇到的黑色像素点记录下来,这两个点之间的距离就是图像大致的高度范围;
S3、进行图像分析,从左至右对图像进行扫描,发现第一个黑色像素点之后,将此点作为图像分割的起始部位,接着进行扫描,无黑色像素点时停止完成分割;
步骤三、图像尺寸调整;
S1、对图像的归一化处理心扫描,之后对字符的尺寸进行调整,使其尺寸相同;
S2、对比系统要求高度与字符高度,将需变换的系数计算出来,依据此系数进行相应的高度变换,宽度也按照此方法进行变化按照插值的方法,将新图像里的点映射到原图像中,完成尺寸统一;
步骤四、对图像通过紧缩重排,形成新的图像字符;
步骤五、将图像字符带入BP网络中,开展网络训练工作,从而将样本中的待识别的特征向量提取出来,随后进行识别工作得到潜在垃圾图片;...

【专利技术属性】
技术研发人员:徐风于广建于春峰王金
申请(专利权)人:浙江金实乐环境工程有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1