基于改进词袋模型的不良图像检测方法技术

技术编号:11556836 阅读:116 留言:0更新日期:2015-06-04 15:49
本发明专利技术公开了一种基于改进词袋模型的不良图像检测方法,主要解决传统词袋模型在检测不良图像过程中颜色描述不准确、关键特征点提取不全面、特征描述复杂、局部区域描述不精确的问题。其实现步骤为:(1)提取关键特征点;(2)对关键特征点提取颜色特征和梯度特征;(3)根据颜色特征和梯度特征分别建立颜色词典和梯度词典;(4)根据先验知识计算每个特征点颜色单词的类条件概率;(5)根据类条件概率对相应的梯度单词加权,并统计加权后的梯度单词直方图,(6)利用直方图训练分类器;(7)用训练好的分类器检测不良图像。本发明专利技术提高了颜色描述信息的丰富性,避免了关键特征点的丢失,能更加精确描述图像局部区域,可用于过滤色情图像。

【技术实现步骤摘要】
基于改进词袋模型的不良图像检测方法
本专利技术属于模式识别与计算机视觉的交叉领域,特别涉及结合颜色统计先验和词袋模型的不良图像检测方法,可用于过滤色情图像。
技术介绍
随着互联网及无线通信技术的发展,人们更加易于从网上获取大量的有用信息,但是淫秽、色情等不良信息也得以迅速传播。色情图像的传播干扰用户体验正常的网络信息服务,引起严重的社会问题。因此,亟需鲁棒的不良图像信息过滤技术。由于彩色不良图像中通常含有大量裸露的肤色区域或者人体敏感器官,常用的不良信息检测方法通过分析能反映这些特点的感兴趣区域来过滤不良图像,如在YCbCr空间采用高斯混合模型对肤色进行建模,通过肤色模型提取肤色区域,分析肤色区域中的低层特征来判定该区域是否包含不良信息。中科院自动化所的Hu等在文献“W.Hu,H.Zuo,O.Wu,Y.Chen,Z.ZhangandD.Suter.Recognitionofadultimages,videos,andwebpagebags.ACMTransactionsonMultimediaComputing,CommunicationsandApplications,vol.7,no.28,pp.1-24,2011.”中采用基于AdaBoost的人体敏感器官检测器,并结合肤色区域的低层特征表示来判断图像的性质,此方法的不足在于传统颜色描述方法所描述的信息不丰富。由于不良图像的定义有较强的语义特性,基于词袋模型方法因其在语义描述上的优势成为不良图像检测极具潜力的发展方向之一。常用的基于词袋模型的不良图像检测方法首先提取图像的肤色区域,然后在肤色区域提取关键特征点,对这些特征点的尺度不变变换特征SIFT类得到词典,将图像表示成词典中的视觉单词的直方图,从而基于图像的直方图训练不良图像检测器。鉴于不良图像中人体的敏感器官常包含非肤色区域,肤色检测方法往往漏检这部分信息,从而导致对不良信息判定起决定作用的一些特征点丢失。为避免这种情况的出现,可在用词袋模型表示图像的局部特征时考虑融合颜色和梯度信息。如德国人工智能研究中心Ulges等在文献“A.Ulges,A.Stahl.Automaticdetectionofchildpornographyusingcolorvisualwords.InIEEEInternationalConferenceonMultimediaandExpo,pp.1-6,Barcelona,Jul.2011.”中在YUV颜色空间的亮度Y、红色差U、蓝色差V通道中分别使用DCT描述子作为图像的局部特征。用这种特征融合方式构建词典时,颜色或梯度任一种特征的变化均需要不同的单词来表示,因此在描述不良图像时需要较大的词典规模,从而使得不良图像的表示更复杂,且在分类过程易出现过拟合问题。中国科学院刘毅志等在文献“刘毅志,杨颖,唐胜,林守勋.基于视觉注意模型VAMAI的敏感图像检测方法.中国图象图形学报,vol.16,no.7,pp.1226-1233,2011.”中采用基于加速稳健特征的词袋模型结合全局颜色特征来表示不良图像。这种方法导致图像的局部区域描述不精确。
技术实现思路
本专利技术目的在于针对上述已有技术的不足,提出一种基于改进词袋模型的不良图像检测方法,以提高颜色描述信息的丰富性,减小词典的规模,避免关键特征点的丢失,更加精确描述图像局部区域,实现对不良图像的鲁棒检测。为实现上述目的,本专利技术的技术方案包括如下步骤:(1)收集正常图像与不良图像作为训练集,并标记每幅图像的类别;用高斯差分算子对训练集中的所有图像进行关键特征点检测,将这些关键特征点组成特征点集合T;(2)对集合T中的关键特征点分别利用尺度不变变换特征SIFT方法和颜色属性CA方法计算关键特征点的梯度特征向量f和颜色特征向量f',对梯度特征向量和颜色特征向量分别进行欧式距离测度下的K-均值聚类;并用梯度特征向量的聚类中心组成图像的梯度词典,用颜色特征向量的聚类中心组成图像的颜色词典;(3)将训练集中所有图像特征点的梯度特征向量量化为梯度词典中的单词,将训练集中所有图像特征点的颜色特征向量量化为颜色词典中的单词;(4)通过贝叶斯模型计算每个特征点的颜色单词的类条件概率,并与所对应特征点的梯度单词相乘,统计得到颜色先验加权后的梯度单词直方图;(5)将训练图像的加权直方图及其类别标记输入支持向量机SVM,训练不良图像分类器;(6)对待测图像,根据步骤(1)-(3)得到其关键特征点的梯度特征向量和颜色特征向量,并将这些特征向量分别量化为梯度单词和颜色单词,将步骤(4)得到的颜色单词的类条件概率与梯度单词相乘,统计出待测图像的颜色先验加权后的梯度单词直方图;(7)将待测图像的加权直方图输入到步骤(5)所训练出的分类器中,根据分类器的分类结果判断待测图像是否属于不良类。本专利技术与已有的基于肤色检测和词袋模型的不良图像检测方法相比,具有以下优点:1)对图像中不良区域的颜色描述更准确,本专利技术用颜色属性方法来描述颜色信息,更符合人对颜色的语义定义,相对传统的肤色检测方法,本专利技术能描述更丰富的颜色信息,因而对图像中不良区域的颜色描述更准确;2)对图像中关键特征点的提取更全面。不良图像中人体的敏感器官常包含非肤色区域,肤色模型往往会漏检该部分区域,从而导致对不良信息判定起决定作用的一些关键特征点丢失,导致不良图像的漏检率增高,本专利技术采用颜色概率先验给出图像中各个关键特征点的颜色属于不良图像的概率,从而避免了传统方法中关键特征点丢失的问题;3)特征描述更加灵活。本专利技术构建词袋模型时对颜色信息和梯度信息分别建立单独的词典,可以任意地组合颜色单词和梯度单词以描述不良图像特征,从而使用较小规模的词典更灵活的表示不良图像;4)局部区域描述的精确性更高。本专利技术将颜色信息作为梯度特征的视觉先验,来决定不同局部区域梯度特征的重要性,提高梯度特征的鉴别性,从而提高了不良图像检测的局部区域描述的精确性。以下结合附图对本专利技术做进一步详细描述。附图说明图1是本专利技术的实现流程图。具体实施方式本专利技术基于颜色统计先验的不良图像检测方法,包括训练不良图像分类器和检测不良图像两个阶段。其具体实现参照图1,描述如下。一.分类器训练阶段:步骤1,获取训练集。1a)从互联网或现有图库里收集包含人体敏感器官的图像作为不良图像,同时收集含日常风景、人物画像等符合道德标准的图像作为正常图像,用这些不良图像和正常图像组成图像训练集;1b)根据图像内容人工标记出每幅训练图像的类别,即将训练图像分为正常类和不良类,得到与每幅图相对应的类别标记信息。步骤2,检测训练集中图像的关键特征点。2a)利用高斯差分算子DoG检测图像中的极值点:2a1)采用隔点采样的方法变换图像的分辨率,并且多次改变采样间隔得到图像在多个分辨率尺度下的采样结果,然后建立图像多分辨金字塔,其中每一层代表一个分辨率尺度下的图像,并且按照分辨率大小排序,最下面是清晰的原始训练图像;2a2)用高斯滤波算子对金字塔中每层图像做滤波,得到原始训练图像在不同分辨率下滤波后的输出结果,并且对相邻两层的结果求差值;2a3)对差值结果做像素遍历,并且定义与当前像素距离最近的26个像素为当前像素的邻接像素点,如果当前像素是所有邻接像素点中的最大本文档来自技高网
...
基于改进词袋模型的不良图像检测方法

【技术保护点】
一种基于改进词袋模型的不良图像检测方法,包括如下步骤:A.收集正常图像与不良图像作为训练集,并标记每幅图像的类别;用高斯差分算子对训练集中的所有图像进行关键特征点检测,将这些关键特征点组成特征点集合T;B.对集合T中的关键特征点分别利用尺度不变变换特征SIFT方法和颜色属性CA方法计算关键特征点的梯度特征向量f和颜色特征向量f',对梯度特征向量和颜色特征向量分别进行欧式距离测度下的K‑均值聚类;并用梯度特征向量的聚类中心组成图像的梯度词典,用颜色特征向量的聚类中心组成图像的颜色词典;C.将训练集中所有图像特征点的梯度特征向量量化为梯度词典中的单词,将训练集中所有图像特征点的颜色特征向量量化为颜色词典中的单词;D.通过贝叶斯模型计算每个特征点的颜色单词的类条件概率,并与所对应特征点的梯度单词相乘,统计得到颜色先验加权后的梯度单词直方图;E.将训练图像的加权直方图及其类别标记输入支持向量机SVM,训练不良图像分类器;F.对待测图像,根据步骤A‑C得到其关键特征点的梯度特征向量和颜色特征向量,并将这些特征向量分别量化为梯度单词和颜色单词,将步骤D得到的颜色单词的类条件概率与梯度单词相乘,统计出待测图像的颜色先验加权后的梯度单词直方图;G.将待测图像的加权直方图输入到步骤E所训练出的分类器中,根据分类器的分类结果判断待测图像是否属于不良类。...

【技术特征摘要】
1.一种基于改进词袋模型的不良图像检测方法,包括如下步骤:A.收集正常图像与不良图像作为训练集,并标记每幅图像的类别;用高斯差分算子对训练集中的所有图像进行关键特征点检测,将这些关键特征点组成特征点集合T;B.对集合T中的关键特征点分别利用尺度不变变换特征SIFT方法和颜色属性CA方法计算关键特征点的梯度特征向量f和颜色特征向量f',对梯度特征向量和颜色特征向量分别进行欧式距离测度下的K-均值聚类;并用梯度特征向量的聚类中心组成图像的梯度词典,用颜色特征向量的聚类中心组成图像的颜色词典;C.将训练集中所有图像特征点的梯度特征向量量化为梯度词典中的单词,将训练集中所有图像特征点的颜色特征向量量化为颜色词典中的单词;D.通过贝叶斯模型计算每个特征点的颜色单词的类条件概率,并与所对应特征点的梯度单词相乘,统计得到颜色先验加权后的梯度单词直方图;按如下步骤进行:D1.在训练集中统计每个颜色单词wc在不良图像中出现的频次m1和每个颜色单词在正常图像中出现的频次m2,根据训练集类别标记将训练图像分为不良类和正常类,定义class为训练图像的类别,训练图像为不良图像时class=1,训练图像为正常图像时class=2,计算wc在不良类和正常类出现的概率为:D2.根据类别先验概率和相似度概率,通过贝叶斯准则计算颜色单词wc的类条件概率p(class=k|wc),贝叶斯公式如下:其中,p(class=k)表示类别先验概率;D3.将图像中每个关键特征点的梯度单词wg乘上该关键特征点所对应的颜色单词wc的类条件概率p(class=k|wc),得到颜色先验加权后的梯度单词;D4.将上述加权后的梯度单词与词典中单词进行对比,统计词典中每个单词在图像所有关键特征点中出现的次数,得到每幅图像颜色先验加权后的梯度单词的直方图;E.将训练图像的加权直方图及其类别标记输入支持向量机SVM,训练不良图像分类器;F.对待测图像,根据步骤A-C得到其关键特征点的梯度特征向量和颜色特征向量,并将这些特征向量分别量化为梯度单词和颜色单词,将步骤D得到的颜色单词的类条件概率与梯度单词相乘,统计出待测图像的颜色先验加权后的梯度单词直方图;G.将待...

【专利技术属性】
技术研发人员:田春娜张相南高新波王代富王秀美王颖邓成
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1