基于多模式组合策略的移动互联网色情图像识别方法技术

技术编号:8131219 阅读:434 留言:0更新日期:2012-12-27 03:29
本发明专利技术涉及一种移动互联网色情图像识别方法。一种基于多模式组合策略的移动互联网色情图像识别方法,首先利用基于小波纹理修正肤色的色情图像识别算法对图像进行粗过滤,识别出疑似色情图像,并在此基础上:首先采用误判图像匹配技术把经常误判的图像搜集起来组建成误判图像库,然后提取图像的全局特征,采用E2LSH技术对图像库中的图像建立索引;其次,对识别出的疑似色情图像利用图像库的E2LSH进行快速精确匹配,经过匹配如果不在误判图像库中,则认为是疑似色情图像;最后,对于经过匹配不在误判图像库中的疑似色情图像,采用基于最大连通感兴趣区的多种特征融合识别算法进行最终识别。在保证色情图像较高识别率的前提下,可以有效地降低正常图像的误判率。

【技术实现步骤摘要】

本专利技术涉及一种移动互联网色情图像识别方法,特别是涉及一种。
技术介绍
近年来移动互联网发展迅速,预计2012年中国移动互联网网民数量将达4. 5亿,而这其中很大一部分都是青少年,他们可以很方便地通过手机从网络下载色情图像和不良信息。而由于青少年身心尚未发育成熟,对一切都比较好奇,又处于青春叛逆期,很容易诱使他们走向歧途。色情图像和色情网站的存在已经严重威胁到青少年的身心健康。因此,有必要利用智能图像识别技术对移动互联网色情图像进行过滤,为通信运营商更有效地封堵色情网站提供技术支持。目前通信运营商已经部署了不良图像过滤系统,该系统在前端机利用基于内容的不良图像识别技术对图像进行识别,将中标图像数据上传到后台进行管理并由人工坐席审核,根据发现的色情图像来对色情网站进行封堵。现有的移动互联网不良图像识别技术都是在前端机采用一种色情图像识别算法对图像进行过滤,结果是色情图像的查全率可以满足客户的要求,但是正常图像的误判率却很高,需要很多的人工坐席来对算法的识别结果进行审核。图I给出了一种现有通信运营商采用的移动互联网色情图像识别方案,该技术方案注重色情图像的查全率,也就是保证尽可能多的色情图像被识别正确。但是会造成前端机识别结果中包含有很多的正常图像,再加上通过移动互联网上网的用户众多,下载的数据量非常大,交给人工坐席审核的图像里面正常图像的总量很大,这就需要花费大量的人力和财力来对图像进行人工审核,极大地增加通信运营商的运营成本。因此,如何在保证色情图像较高查全率的前提下,使正常图像的误判率有较大地降低(也就是色情图像的查准率有较大提高),正是本领域技术人员一直在研究、解决的问题。
技术实现思路
本专利技术针对目前移动互联网色情图像识别中正常图像误判率过高的问题,提出一种。在保证色情图像较高识别率的前提下,可以有效地降低正常图像的误判率。本专利技术所采用的技术方案—种,首先利用基于小波纹理修正肤色的色情图像识别算法对图像进行第一次粗过滤,识别出疑似色情图像,并在此基础上首先,采用误判图像匹配技术把经常误判的图像搜集起来,组建成一个百万级规模的误判图像库,然后提取图像的全局特征,采用E2LSH技术对图像库中的图像建立索引;其次,对识别出的疑似色情图像利用基于百万级误判图像库的E2LSH进行快速精确匹配,经过匹配如果在图像库中,则认为是正常的图像,如果不在误判图像库中,则认为是疑似色情图像;最后,对于经过匹配不在误判图像库中的疑似色情图像,采用基于最大连通感兴趣区的多种特征融合识别算法进行二次过滤,最终识别出色情图像。所述的,基于小波纹理修正肤色的色情图像识别算法在肤色检测基础上,加入小波纹理分析去除由于类肤色背景引起的类肤色点,最后利用肤色面积比对图像进行第一次粗过滤,其流程如下I) RGB颜色空间变换到HSV颜色空间;2)将HSV颜色空间进行量化,划分成L个颜色子空间,通过统计分析确定皮肤颜色在这L个子空间中的分布,聚类得到皮肤颜色的分布子空间集合A以及A的隶属度集合W ;3)肤色建模,确定样本皮肤像素的总数shin_COunt以及样本皮肤像素在这L个子 空间的频次 sub_count_i, i = I,. . . , L, LΣ sub _count_i — shin—count -1以归一化的频次作为皮肤像素分布于该子空间的可能性;Vi = sub_count_i/skin_count为了消除皮肤样本选取不精确和统计因素的影响,设定一个肤色分布概率的可能性阈值T_vi,如果满Svi彡 TjiJJwi = Vi ;否则,Wi = O,得至 Ij A = (A1, A2, , AJW = Iw1, W2, , wL}其中,Wi表示对应子空间Ai的隶属度,即Ai中的颜色是皮肤颜色的可能性,i =I,2,... L,参数 L = 72 ;4)计算肤色概率对任意图像F(x,y),将每一个像素(x,y)转换到HSV颜色空间并量化,得到该像素的颜色子空间标号k,该点属于肤色的概率为w (k);5)小波纹理修正肤色,去除类肤色点的干扰对原图像做一层小波分解,取出变换后的高频系数LH、HH和HL,对三个高频系数求平均得到一个高频平均系数H_AVE ;设某个像素点属于肤色的临界概率阈值为th,如果w (k) <th,则该点不是一个肤色点,否则利用H_AVE计算该点周围36*36邻域的小波特征。利用小波高频平均系数计算36*36邻域方差WAVE_VAR,定义属于类肤色点的方差阈值为FALSE_TH,如果WAVE_VAR>=FALSE_TH,该像素不是一个肤色点,否则是一个肤色点;6)重复步骤4) —5)可以完成对一个图像的肤色分割,计算肤色面积比SKIN_RATION,定义色情图像阈值SEX_TH,如果SKIN_RATION>=SEX_TH,该图像是一副色情图像,否则是一副正常图像。所述的,利用E2LSH进行误判图像快速匹配,分为误判图像库中每一幅图像索引的建立和图像匹配两部分,E2LSH建立索引的过程如下I)提取图像特征p,对于图像库中的每一张图像,进行4*4的分块,计算每一块的hu矩特征,16块一共112维特征向量;2) E2LSH映射降维利用散列函数g (v) = (v), h2 (v), . . . , hk(v))对特征p进行降维,得到一个k维的向量g(v);3) E2LSH桶哈希对第二步得到的k维向量,计算主哈希值Ii1 (g(v))和次哈希值h2 (g (v));4)将主哈希值和次哈希值相同的点放入同一个桶中,生成哈希表T=Od1, b2, . . . , bk, . . . , bN},同时把特征向量P的数据存进桶中,其中bk表示哈希表T的第k个桶,N为哈希表T中包含的桶的个数;5)为哈希表中的每个桶生成一个索引文件,索引文件由该桶中各点的主次哈希值组成;6)重复上述步骤,完成所有图像索引的建立;匹配过程如下 I)计算图像4*4分块Hu矩特征P ;2)计算P的哈希表索引;3)根据索引,搜索该哈希表中的所有桶b,并计算桶中的每个点与P的欧氏距离,如果存在距离小于O. 001,则认为该图像在图像库中,否则就认为不在图像库中。所述的,基于最大连通感兴趣区的多种特征融合识别算法,只对一副图像的最大连通区域进行分析,以避免一副色情图像由于肤色面积比过小而被漏判的可能,提高了色情图像的识别率;同时提取基于颜色、形状、位置、纹理的多种特征,采用支持向量机(Support Vector Machine, SVM)进行分类,在保持较高识别率的同时,可以较好地降低误判率。基于最大连通感兴趣区的多种特征融合识别算法,具体实施方案如下I)图像尺寸归一化,对图像进行缩放操作,以提高运算速度;2)肤色分割首先对RGB颜色空间进行变换,令某个像素点的像素值为R、G、B,归一化后的像素值为r、g、b,如果R+G+B=0,则r=0, g=0, b=0,如果R+G+B Φ 0,则r=R/(R+G+B),g=G/(R+G+B),b=B/(R+G+B);定义颜色分量rg、rb、lgrg、lgrb,如果 g=0,则 rg=0, Igrg=O,如果 g 古 0,则 rg=r/g, Igrg=Iogrg ;如果 b=0,贝丨J 本文档来自技高网
...

【技术保护点】
一种基于多模式组合策略的移动互联网色情图像识别方法,首先利用基于小波纹理修正肤色的色情图像识别算法对图像进行第一次粗过滤,识别出疑似色情图像,并在此基础上:首先,采用误判图像匹配技术把经常误判的图像搜集起来,组建成一个百万级规模的误判图像库,然后提取图像的全局特征,采用E2LSH技术对图像库中的图像建立索引;其次,对识别出的疑似色情图像利用基于百万级误判图像库的E2LSH进行快速精确匹配,经过匹配如果在图像库中,则认为是正常的图像,如果不在误判图像库中,则认为是疑似色情图像;最后,对于经过匹配不在误判图像库中的疑似色情图像,采用基于最大连通感兴趣区的多种特征融合识别算法进行二次过滤,最终识别出色情图像。

【技术特征摘要】
1.一种基于多模式组合策略的移动互联网色情图像识别方法,首先利用基于小波纹理修正肤色的色情图像识别算法对图像进行第一次粗过滤,识别出疑似色情图像,并在此基础上 首先,采用误判图像匹配技术把经常误判的图像搜集起来,组建成ー个百万级规模的误判图像库,然后提取图像的全局特征,采用E2LSH技术对图像库中的图像建立索引; 其次,对识别出的疑似色情图像利用基于百万级误判图像库的E2LSH进行快速精确匹配,经过匹配如果在图像库中,则认为是正常的图像,如果不在误判图像库中,则认为是疑似色情图像; 最后,对于经过匹配不在误判图像库中的疑似色情图像,采用基于最大连通感兴趣区的多种特征融合识别算法进行二次过滤,最終识别出色情图像。2.根据权利要求I所述的基于多模式组合策略的移动互联网色情图像识别方法,其特征是基于小波纹理修正肤色的色情图像识别算法在肤色检测基础上,加入小波纹理分析去除由于类肤色背景引起的类肤色点,最后利用肤色面积比对图像进行第一次粗过滤,其流程如下 1)RGB颜色空间变换到HSV颜色空间; 2)将HSV顔色空间进行量化,划分成L个颜色子空间,通过统计分析确定皮肤颜色在这L个子空间中的分布,聚类得到皮肤颜色的分布子空间集合A以及A的隶属度集合W ; 3)肤色建摸,确定样本皮肤像素的总数shin_COunt以及样本皮肤像素在这L个子空间的步页次 sub_count_i, i = I,. . . , L, LZsiib count i = shin count一一 —i=l 以归ー化的频次作为皮肤像素分布于该子空间的可能性;V,- = sub_count_i/skin_count 为了消除皮肤样本选取不精确和统计因素的影响,设定一个肤色分布概率的可能性阈 如果满足Vi彡T_vi,则Wi = Vi ;否则,Wi = O,得到A = (A1, A2,, AJW = Iw1, W2, , WlI 其中,Wi表示对应子空间Ai的隶属度,即Ai中的颜色是皮肤颜色的可能性,i =I, 2,... L,參数 L = 72 ; 4)计算肤色概率对任意图像F(x,y),将每ー个像素(X,y)转换到HSV顔色空间并量化,得到该像素的顔色子空间标号k,该点属于肤色的概率为w (k); 5)小波纹理修正肤色,去除类肤色点的干扰对原图像做ー层小波分解,取出变换后的高频系数LH、HH和HL,对三个高频系数求平均得到一个高频平均系数H_AVE ;设某个像素点属于肤色的临界概率阈值为th,如果w(k)〈th,则该点不是ー个肤色点,否则利用H_AVE计算该点周围36*36邻域的小波特征。利用小波高频平均系数计算36*36邻域方差WAVE_VAR,定义属于类肤色点的方差阈值为FALSE_TH,如果WAVE_VAR>=FALSE_TH,该像素不是ー个肤色点,否则是ー个肤色点; 6)重复步骤4)一5)可以完成对ー个图像的肤色分割,计算肤色面积比SKIN_RATION,定义色情图像阈值SEX_TH,如果SKIN_RATION>=SEX_TH,该图像是ー副色情图像,否则是ー副正常图像。3.根据权利要求I所述的基于多模式组合策略的移动互联网色情图像识别方法,其特征是利用E2LSH进行误判图像快速匹配,分为误判图像库中每一幅图像索引的建立和图像匹配两部分,E2LSH建立索引的过程如下 1)提取图像特征P,对于图像库中的每ー张图像,进行4*4的分块,计算每ー块的hu矩特征,16块一共112维特征向量; 2)E2LSH映射降维利用散列函数g(v) = Qll (V),h2 (V),· · ·,hk(v))对特征p进行降維,得到ー个k维的向量g(v); 3)E2LSH桶哈希对第二步得到的k维向量,计算主哈希值Ii1(g(v))和次哈希值h2 (g (v)); 4)将主哈希值和次哈希值相同的点放入同一个桶中,生成哈希表T=Od1, b2, . . . , bk, . . . , bN},同时把特征向量P的数据存进桶中,其中bk表示哈希表T的第k个桶,N为哈希表T中包含的桶的个数; 5)为哈希表中的每个桶生成ー个索引文件,索引文件由该桶中各点的主次哈希值组成; 6)重复上述步骤,完成所有图像索引的建立; 匹配过程如下 1)计算图像4*4分块Hu矩特征P; 2)计算P的哈希表索引; 3)根据索引,捜索该哈希表中的所有桶b,并计算桶中的每个点与P的欧氏距离,如果存在距离小于O. 001,则认为该图像在图像库中,否则就认为不在图像库中。4.根据权利要求I 3任一项所述的基于多模式组合策略的移动互联网色情图像识别方法,其特征是基于最大连通感兴趣区的多种特征融合识别算法,只对ー副图像的最大连通区域进行分析,以避免一副色情图像由于肤色面积比过小而被漏判的可能,提高了色情图像的识别率;同时提取基于颜色、形状、位置、纹理的多种特征,采用支持向量机(SupportVector Machine, SVM)进行分类,在保持较高识别率的同时,可以较好地降低误判率。5.根据权利要求4所述的基于多模式组合策略的移动互联网色情图像识别方法,其特征是基于最大连通感兴趣区的多种特征融合识别算法,具体实施方案如下 O图像尺寸归ー化,对图像进行缩放操作,以提高运算速度; 2)肤色分割首先对RGB颜色空间进行变换,令某个像素点的像素值为R、G、B,归ー化后的像素值为 r、g、b,如果 R+G+B=0,则 r=0,g=0,b=0,如果 R+G+B 幸 O,则 r=R/ (R+G+B),g=G/(R+G+B), b=B/(R+G+B); 定义颜色分量rg、rb、lgrg、lgrb,如果g=0,贝丨J rg=0, Igrg=O,如果g幸0,贝丨J rg=r/g,Igrg=Iogrg ;如果 b=0,贝丨J rb=0,...

【专利技术属性】
技术研发人员:彭天强张晨民赵慧琴孙晓峰崔鹏飞
申请(专利权)人:郑州金惠计算机系统工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1