基于直觉模糊的色情图像识别方法技术

技术编号:2941215 阅读:321 留言:1更新日期:2012-04-11 18:40
本发明专利技术涉及一种色情图像的识别方法,包括以下步骤:第一步建立样本图像库;第二步对样本图像进行特征提取;第三步对样本图像所提取的特征进行训练,形成色情图像分类器;第四步对待识别图像进行特征提取;第五步将待识别图像特征输入到色情图像分类器,得出识别结果。本发明专利技术中的图像特征采用由确定数值、模糊数值及直觉模糊数值共同构成的颜色直方图特征向量;本发明专利技术还包括采用遗传算法对图像特征进行特征优化的步骤。使用本发明专利技术的方法,可以增加图像识别的准确度,并减少识别时间。

【技术实现步骤摘要】

本专利技术涉及一种色情图像的识别方法,属于图像识别

技术介绍
人类社会进入信息时代,信息的快速传播改变了人类的工作、学习及生活 方式。信息的形式多元化(文本、图像、语音等);信息的内容也在多元化,在 促进人类社会进步的同时,存在大量的不良信息对社会造成很恶劣的影响,例 如色情图像信息,是其中传播最为广泛、最难控制的一种信息。随着国内各部门系统信息化建设工作的不断推进,为满足各种工作需要, 网络中提供的服务不断增多,这为通过这些服务而进行的违规行为提供了入口, 例如发布色情图像,如何保障系统内部网络中信息内容的安全性成为众多网络 建设工作的重点之一。另外,互联网的逐渐普及,使得未成年人对网络的使用 不断增多,流传于网上的色情图像对未成年人的健康成长危害极大。还有一些 色情图像在当事人不知情的情况下被记录,此类图像的流传在造成不良社会影 响的同时,对当事人更是具有很深的伤害。现有的色情图像识别技术可以分为三类基于URL、基于文本以及基于图 像内容的识别方式。基于URL的识别算法的准确度受限于URL数据库,使得识 别具有滞后和不完整的缺点,且维护日益庞大的数据库工作量太大,无法适应 实时识别的需求。基于文本的识别算法中,很难准确的把握不同上下文环境中 的文本信息,此外对于网络中大量的不包含敏感文字或文字以图像方式显示的 情况无法发挥作用。基于图像内容的识别方式,是利用图像识别技术检测网页中的图像是否包 含色情内容,这种识别方式可以应付多变的情况,是一种更高级、更彻底、更 有效的识别方式,具有广泛的适应性。从90年代起,国内外对色情图像的识别 技术作了大量的研究,尤其近十年来取得了不少宝贵的成果。最早的色情图像识别系统是U.C.Berkelry的David A. Forsyth等人在1996年 设计的一种裸露人体检测算法,在皮肤过滤之后,判断各肤色柱状体是否能够 组成人体。1997年Stanford大学的Jame Ze Wang等人设计了 WIPE(Wavelet Image PornographyElimination)系统,从频率的角度识别图像的形状特征,特征匹配之 后得出色情图像识别结果。1999年Compaq公司与Cambridge研究室的Michael J.Jones和James M. Rehg利用统计方法研究了皮肤的颜色模型,构成有关皮肤像素 的七个特征,并将它用于裸体图像的检测。1999年,法国的LTUCLookThatUP) 公司推出的Image-Filter是一款图像识别和过滤软件,是用软件中的DNA计算模 块模仿人类的视觉系统,用机器学习技术模仿人类大脑的识别功能。2000年英 国Clearswift公司推出的PORNsweeper是一款用于检测邮件附件中的色情内容的 图像识别和过滤软件。2003年,由欧盟资助了开源项目POESIA(Public Open-source Environment for a Safer Internet Access),其中包括过滤网页色情图像 的模块。2003年美国VIMA公司(其前身是Morpho软件公司)推出的ImageBeagle 是一款用于检测硬盘和网络缓存文件中色情图像软件。另外,evision公司开发的 EVE(evision visual engine)禾卩Exotrope公司的BAIR(Basic Artificial Intelligence Routine),均可用于色情图像的识别和过滤。国内对基于图像内容的网络过滤技术的研究比较晚,但国内的一些研究院 和高校在图像过滤技术方面也作了比较深入的研究,所提出的算法有较高的参 考价值。2000年东北大学软件中心的许强等人提出了一个基于图像内容过滤的 智能防火墙系统,该系统利用Daubechies小波和正则中心矩相从图像中提取轮廓 特征,然后在特征库中利用距离度量寻找匹配的模式。2002年,中国科学院的 段立娟等人研究的多层次图像过滤方法在得到图像的肤色区域的基础上,利用 SVM的分类方法进行识别分类。中国科技大学的L丄.Cao等人利用LVQ(Leaming Vector Quantization)算法和Adaboost算法对图像进行分类。2003年中国科学院软 件研究所的孙庆杰等人提出了一种人体检测算法,该算法将人体看作由躯千和 四肢构成,用一个四边形拟合躯干,用一个或者两个四边形拟合每个肢体。2004 年,电子科技大学的尹显东等人研究的特定图像过滤方法在HS平面能普遍代表 黄种人皮肤颜色的区域,再结合人脸检测、图像轮廓、面积等多项特征实现色 情图像的识别过滤。在实际应用上,2003年飞涛软件工作室开发出的护花使者图像版,采用了 基于图像内容检索的算法,可以用于扫描出硬盘中的色情图像。2004年郑州金 惠计算机系统工程有限公司推出"金惠反黄专家系统",该系统在皮肤区域分割 的基础上提取出描述形状和姿态的特征,将当前图像与标准色情图像特征库中 的图像进行匹配,从而识别色情图像。综合上述各种识别算法,得出色情图像的识别主要分为两种方法,第一种 方法是首先检测出人体的皮肤区域,在此基础上识别出人的肢体部分,然后根 据一定的规则将肢体进行组建,进而识别出裸露的人体,但此算法计算量和数 据存储所需的容量都很大,在实际系统中无法得到很好的应用。第二种方法并不试图去识别色情图像中人体的各个肢体部分,它从图像中提取出一系列能区 分裸体和非裸体图像的特征量,利用机器学习技术进行裸体图像的识别。 文献《基于特征向量的敏感图像识别技术》(西南交通大学学报.2007,42(1):13-18)提出的色情图像识别算法属于第二种方法,针对现有色情敏 感图像识别技术的缺陷,提出了基于特征向量的敏感图像识别技术。算法大致 分为建立样本图像库,训练样本图像,输入图像处理和分类处理四个步骤。建 立样本图像库中输入典型的敏感图像,构成图像库。训练样本图像过程分为特 征提取和特征训练两个步骤,特征提取过程采用YIQ彩色坐标系的色度和YUV 彩色坐标系的色调作为皮肤的肤色模型,从敏感图像的皮肤掩码图像中提取与 肤色区域数量和比例等有关的6个特征;特征训练部分,将提取的特征向量输入 到SVM( support vector machine)训练器中,通过多步训练之后,得出敏感图像分 类器。输入图像处理过程中,对输入图像作与样本图像相同的特征提取操作。 最后进入图像分类过程,将由输入图像构成的特征输入到SVM分类器中,根据 分类结果判断图像是否为敏感图像。但该文献在建立皮肤特征的时候采用确定 性算法,没有准确的模拟人眼的特征提取过程,图像特征的描述缺乏完整性, 降低了识别准确度。对于大量的图像特征,该文献没有提出特征优化算法,增 加了计算量,增加了图像识别时间。
技术实现思路
为了解决现有色情图像识别方法中存在的问题,增加识别准确度,减少识 别时间,本专利技术提出了 一种。本专利技术所提出的色情图像识别方法大致分为两个部分, 一部分对样本图像 进行特征提取、优化及训练,此部分可以在识别图像之前离线处理,以节省识 别运算时间;另一部分用于对待识别图像进行特征提取及优化处理;两部分得 出的数据输入到神经网络中进行分类处理,得出识别本文档来自技高网
...

【技术保护点】
一种基于直觉模糊的色情图像识别方法,包括以下步骤: 第一步建立样本图像库; 第二步对样本图像进行特征提取; 第三步对样本图像所提取的特征进行训练,形成色情图像分类器; 第四步对待识别图像进行特征提取; 第五步将 待识别图像特征输入到色情图像分类器,得出识别结果; 其特征在于:特征提取时使用的图像特征为由确定数值和模糊数值及直觉模糊数值共同构成的颜色直方图特征向量,该向量通过以下步骤得到: 1)提取图像的确定性特征 将图像中所有像素 颜色映射到HSV空间中的n种颜色,若图像I包含N个像素,则确定性颜色特征表示成C=[c↓[1],c↓[2],…c↓[n]]↑[T],c↓[i]=N↓[i]/N表示图像中所有像素属于第i个颜色值的概率,N↓[i]表示属于第i个颜色值的像素总体数量;根据概率理论: c↓[i]=*P↓[i|j]P↓[j]=1/N*P↓[i|j] (1) P↓[j]是从图像Ⅰ中选择像素能够选择到第j个像素的概率,即1/N,P↓[i|j]是第j个像素属于第i个颜色值的条件概率;在确定性颜 色直方图(CCH)中,P↓[i|j]定义为: *** 2)增加图像的模糊特征 图像Ⅰ的模糊颜色直方图(FCH)表达为F(I)=[f↓[1],f↓[2],…f↓[n]]↑[T]; 利用FCM聚类技术将图像中像素重新聚类 到HSV中的n种颜色,每一种聚类表示一个FCH值;图像中像素对于一个FCH值的隶属度通过精确颜色相对于模糊颜色值的隶属度来表示,仅计算此隶属度一次,以隶属度矩阵形式表示M=[m↓[ij]]↓[n×n],m↓[ij]是j个精确颜色值分布于第i个模糊颜色值的隶属度;图像的FCH值F↓[n×1]直接从CCH的C↓[n×1]计算出来, F↓[n×1]=M↓[n×n]C↓[n×1] FCM最小化一个目标函数J↓[m],它是每一组方差权重的总合,定义如下: J↓[m]( U,W;X)=**u↓[ik]↑[m]‖x↓[k]-w↓[i]‖↓[A]↑[2] 1<m<∞ (4) x↓[k]表示像素的精确颜色,聚类中心w↓[i]表示模糊颜色,u↓[ik]是颜色x↓[k]相对于聚类中心w↓[i]的隶属度;由于 HSV空间中的表达形式,内积‖x↓[k]-w↓[i]‖↓[A]↑[2]替代为‖x↓[k]-w↓[i]‖↑[2],即精确颜色x↓...

【技术特征摘要】

【专利技术属性】
技术研发人员:胡昌振王潇茵姚淑萍
申请(专利权)人:北京理工大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有1条评论
  • 来自[福建省厦门市联通] 2014年12月04日 19:04
    模糊侧重表达的对象的不确定性留给听众一个可供领悟体会选择的弹性空间的一种言语技巧
    0
1