分类器的训练方法及装置、识别敏感图片的方法及装置制造方法及图纸

技术编号:2924697 阅读:310 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供的敏感图片分类器的训练方法及装置,提取训练图片集的区域形状特征,测量区域形状特征在正例样本集、第一反例样本集和第二反例样本集中的分布特征;根据分布特征确定区域形状特征的可分性;将相对于第一反例样本集具有可分性的区域形状特征标注为第一特征组;将相对于第二反例样本集具有可分性的区域形状特征标注为第二特征组;通过第一特征组的特征训练获得第一分类器,通过第二特征组的特征训练获得第二分类器。本发明专利技术还提供了使用该敏感图片分类器进行敏感图片识别的方法及装置。通过本发明专利技术能够提高敏感图片识别的准确度。

【技术实现步骤摘要】

本专利技术涉及图像识别领域,尤其涉及一种分类器的训练方法及装置、识 别敏感图片的方法及装置。
技术介绍
随着互联网信息量的日益丰富,不良信息也越来越多。不良信息中的色 情图片等敏感图片污染社会风气,危害青少年的身心健康,识别并拦截这类 敏感图片是净化互联网内容的一项关键任务。考虑到敏感图片绝大多数都是存在大面积人体皮肤棵露的,而检测人体 棵露皮肤相对比直接检测出敏感图片容易,因此人体棵露皮肤检测是达到敏 感图片识别的一种有效的启发式办法。通过人体棵露皮肤检测,可以检测出 疑似度相当高的一类敏感图片,然后交给人工审核,可以大大降低人工审核 的工作量。现有技术中存在一种基于肤色检测技术及人体区域形状特征的人体棵露 皮肤检测方法。通过肤色检测技术检测出待审核图片的肤色或类似肤色区域, 然后在这些区域上提取出能够区分人体皮肤区域和非人体皮肤的背景区域的 区域形状特征,再经过一个事先训练好的分类器进行判别。现有的肤色检测技术主要是基于人体皮肤颜色的统计概率分布来进行的,目前使用比较广泛的肤色检测方法是Bayes决策法。该方法在一个大样 本集上统计皮肤颜色和非皮肤颜色的分布,对一种给定的颜色,根据这两个 分布使用Bayes公式计算出该颜色是皮肤颜色的后验概率,根据概率大小决 定其是肤色区域还是非肤色区域。现有技术中常用的人体区域形状特征主要有皮肤区域与图像的面积比(皮肤区域指所有的皮肤像素组成的区域,不要求连续),最大皮肤Blob与 图像的面积比(皮肤Blob指皮肤像素组成的连通区域),皮肤Blob个数,皮 肤Blob与外接矩形(或凸包)面积比、皮肤Blob的等价椭圆的半轴长、离心 率、方向等,皮肤区域的矩不变量,以及人脸区域面积等。在训练图片集上提取这些区域形状特征,训练出一个能够自动分类出敏 感图片和正常图片的分类器。训练图片集由正例样本集(敏感图片组成)和 反例样本集(正常图片组成),在每个样本集上提取的特征分别打上各自的标 签,然后用于训练分类器。用于该问题的分类器主要有支持向量机(SVM)、 感知器网络(MLP)、决策树等。由于现有技术中将各类反例图片合在一起构成反例样本集,致使反例图 片的某些区域形状特征的分布进一步分散化,增大了正例与反例图片的特征 重叠程度,例如,反例照片中的肖像图片与敏感图片的很多彼此重叠的特征 被强行标注成不同的标签,造成训练出的分类器出现过度拟合,分类面发生 扭曲,使得肖像图片的误检率和敏感图片的漏检率都会增大,场景图片的分 类结果也会受到不易预料的影响。因此,现有技术训练出的分类器存在漏检 率和误检率高的问题。
技术实现思路
本专利技术的一个专利技术目的是提供一种敏感图片分类器的训练方法及装置, 能够使训练得到的分类器的漏检率和误检率降低;本专利技术的另 一个专利技术目的是提供一种识别敏感图片的方法及装置,能够 提高识别敏感图片的准确率。本专利技术公开了 一种敏感图片分类器的训练方法,包括步骤提取训练图片集的区域形状特征,所述训练图片集包括正例样本集、第 一反例样本集和第二反例样本集;测量所述区域形状特征在所述正例样本集、第 一反例样本集和第二反例样本集中的分布特征;根据所述分布特征确定所述区域形状特征的可分性;将相对于所述正例样本集与所述第一反例样本集具有可分性的区域形状 特征标注为第一特征组;将相对于所述正例样本集与所述第二反例样本集具有可分性的区域形状特征标注为第二特征组;通过所述第一特征组的特征进行分类器训练获得第一分类器,通过所述 第二特征组的特征进行分类器训练获得第二分类器。本专利技术还公开了一种敏感图片分类器的训练装置,包括训练图片集,所述训练图片集包括正例样本集、第一反例样本集和第二 反例样本集;特征可分性判决模块,用于测量所述训练图片集中的区域形状特征在所 述正例样本集、第一反例样本集和第二反例样本集中的分布特征;并根据所 述分布特征确定所述区域形状特征的可分性;特征标记模块,用于将相对于所述第一反例样本集具有可分性的区域形 状特征标注为第一特征组;将相对于所述第二反例样本集具有可分性的区域 形状特征标注为第二特征组;特征训练模块,用于通过所述第一特征组的特征进行分类器训练获得第 一分类器,通过所述第二特征組的特征进行分类器训练获得第二分类器。本专利技术将反例样本集进行了分类,针对每种类型的反例样本集对大量的 区域形状特征进行可分性实验,分别找出了用于区分不同反例图片与敏感图 片的特征组,使用不同的特征组训练多个分类器,从而使的训练出的分类器 的漏检率和误检率大大降低。 本专利技术公开了 一种利用上述敏感图片分类器识别敏感图片的方法,包括步骤获取待审核图片的肤色或类似肤色区域;在所述肤色或类似肤色区域提取第一特征组的区域形状特征,通过所述 第 一分类器进行识别所述待审核图片是否为场景图片;如果否,则在所述肤色或类似肤色区域提取第二特征组的区域形状特征, 通过第二分类器进行识别所述待审核图片是否为敏感图片。本专利技术还公开了一种敏感图片的识别装置,包括肤色区域图像检测模块,用于获取待审核图片的肤色或类似肤色区域;第 一分类器,使用所述肤色或类似肤色区域的第 一特征组的区域形状特 征识别所述待审核图片是否为场景图片,如果否,则通知所述第二分类器;第二分类器,与所述第一分类器连接,使用所述肤色或类似肤色区域的 第二特征组的区域形状特征,识别所述待审核图片是否为敏感图片。本专利技术通过对待审核的图片进行多层分类识别,并且识别待审核图片所验后找出的区分性较好的区域形状特征,因此对各种类型的反例图片能达到 较好的区分精度,从而能够提高敏感图片识别的精确度。附图说明图1为本专利技术的一实施例中敏感图片分类器的训练方法的流程图; 图2为本专利技术的一实施例中识别^:感图片的方法的流程图; 图3为肤色检验结果的一实例图4为本专利技术一实施例中敏感图片分类器的训练装置的原理框图; 图5为本专利技术 一 实施例中识别敏感图片的装置的原理框图。具体实施例方式本专利技术针对场景图片和肖像图片与敏感图片的区域形状特征可区分性不 同的情况,提出了两组特征组,训练生成两种分类器,通过两种分类器对正 常图片分别处理,能够提高分类器的检测精度,从而提高敏感图片识别的准 确度。请参见图1,本专利技术首先将用于分类器训练的训练图片集区分为正例样本 集、第一反例样本集和第二反例样本集。值得指出的是,正例样本集的种类 和反例样本集的种类并非有数量限制,还可以才艮据实际情况进行相应的调整。当使用训练图片集进行分类器训练时,首先对区域形状特征进行可分性实验 分别在三类样本集中提取区域形状特征(步骤100),测量所提取的区域形状 特征在正例样本集、第一反例样本集和第二反例样本集中的不同分布特征(步 骤101);然后根据分布特征确定区域形状特征的可分性(步骤102)。针对不 同区域形状特征在不同的样本集中的可分性不同,选择可分性较好的区域形 状特征,将相对于正例样本集与第一反例样本集具有可分性的区域形状特征 标注为第一特征组,将相对于正例样本集与第二反例样本集具有可分性的区 域形状特征标注为第二特征组(步骤103);最后使用第一特征组的区域形状 特征来训练分类器获得第一分类器,通过第二特征组的区域形状特征来训练 分类器获得第二分类器(步骤104)。本专利技术经过对区本文档来自技高网
...

【技术保护点】
一种敏感图片分类器的训练方法,其特征在于,包括步骤: 提取训练图片集的区域形状特征,所述训练图片集包括正例样本集、第一反例样本集和第二反例样本集; 测量所述区域形状特征在所述正例样本集、第一反例样本集和第二反例样本集中的分布特征; 根据所述分布特征确定所述区域形状特征的可分性; 将相对于所述正例样本集与所述第一反例样本集具有可分性的区域形状特征标注为第一特征组;将相对于所述正例样本集与所述第二反例样本集具有可分性的区域形状特征标注为第二特征组; 通过所述第一特征组训练获得第一分类器,通过所述第二特征组训练获得第二分类器。

【技术特征摘要】

【专利技术属性】
技术研发人员:付立波王建宇陈波
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利