内容类别检测方法及装置制造方法及图纸

技术编号:11097100 阅读:71 留言:0更新日期:2015-03-04 02:48
本发明专利技术实施例公开了一种内容类别检测方法及装置。所述方法包括:对待检测内容进行特征提取;根据特征提取结果,采用与所述待检测内容相适配的至少两种分类器,对所述待检测内容进行类别检测;根据所述至少两种分类器得到的类别检测结果,确定对应于所述待检测内容的最终类别检测结果。本发明专利技术实施例提供的技术方案,能够对所获取内容的类别进行自动检测,缩短检测时间,降低检测成本。

【技术实现步骤摘要】
内容类别检测方法及装置
本专利技术实施例涉及分类识别
,尤其涉及一种内容类别检测方法及装置。
技术介绍
随着互联网技术的发展,互联网上的信息每时每刻都在以指数级的速度迅猛的增 力口,人们获取和使用信息的方式也越来越多样和便捷化。但是,互联网在给人们的生活带来 便利的同时,也给人们的生活带来了很多的负面影响。比如,互联网上的一些网站处于盈利 和提高点击率的目的,会将一些不健康的内容展示给用户,从而严重影响了用户的浏览体 验,特别是对于青少年而言,这些内容会对其身心发展产生重要影响。 目前,对网站内容(例如色情内容)的鉴别多数是基于人工的判断,这种方法虽然 准确,但是效率低下,且需要耗费大量的人力和物力,根本无法应对当前网站上日益泛滥的 不良内容。
技术实现思路
本专利技术实施例提供一种内容类别检测方法及装置,以能够对所获取内容的类别进 行自动检测,缩短检测时间,降低检测成本。 第一方面,本专利技术实施例提供了一种内容类别检测方法,该方法包括: 对待检测内容进行特征提取; 根据特征提取结果,采用与所述待检测内容相适配的至少两种分类器,对所述待 检测内容进行类别检测; 根据所述至少两种分类器得到的类别检测结果,确定对应于所述待检测内容的最 终类别检测结果。 第二方面,本专利技术实施例还提供了一种内容类别检测装置,该装置包括: 内容特征提取单元,用于对待检测内容进行特征提取; 内容类别检测单元,用于根据特征提取结果,采用与所述待检测内容相适配的至 少两种分类器,对所述待检测内容进行类别检测; 内容检测结果确定单元,用于根据所述至少两种分类器得到的类别检测结果,确 定对应于所述待检测内容的最终类别检测结果。 本专利技术实施例提供的技术方案,利用分类器对待检测内容的特征进行检测,实现 了对待检测内容所属类别的自动识别,相较于人工检测能够大大降低所耗费的人力和物 力,缩短检测时间,降低检测成本;并且,基于多种分类器的类别检测结果来确定对应于待 检测内容的最终类别检测结果,可以有效的保证类别检测结果的正确性,提高检测精度。 【附图说明】 图1是本专利技术实施例一提供的一种内容类别检测方法的流程示意图; 图2是本专利技术实施例二提供的一种内容类别检测方法的流程示意图; 图3是本专利技术实施例三提供的一种内容类别检测方法的流程示意图; 图4是本专利技术实施例四提供的一种内容类别检测装置的结构示意图; 图5是本专利技术实施例五提供的一种内容类别检测装置的结构示意图; 图6是本专利技术实施例六提供的一种优选的内容类别检测方法的流程示意图。 【具体实施方式】 下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便 于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。 实施例一: 图1是本专利技术实施例一提供的一种内容类别检测方法的流程示意图,本实施例可 适用于对待检测内容进行类别检测的情况,该方法可以由类别检测装置来执行,所述装置 由软件和/或硬件实现。参见图1,本实施例提供的内容类别检测方法具体包括如下操作: 操作110、对待检测内容进行特征提取。 在本实施例中,待检测内容可以是预先存储在本地的,或者实时从其他设备获取 得到的文本和/或图片格式的内容。例如,待检测内容为对从互联网中的服务器获取的 HTML (HyperText Mark-up Language,超文本标记语言)页面,进行解析得到的包含有文本 和/或图片格式的网页内容。 对于文本格式的内容而言,可基于卡方、文档频率、信息增益、互信息、交叉熵等文 本特征提取算法,对其进行特征提取;对于图片格式的内容而言,可首先对图片内容进行目 标物的识别,之后根据识别结果建立该图片内容的特征向量。其中,所述特征向量可包括目 标物的面积、个数、位置、以及占整个图片区域比例等元素。 操作120、根据特征提取结果,采用与待检测内容相适配的至少两种分类器,对待 检测内容进行类别检测。 在本实施例中,预先创建有与待检测内容相适配的至少两种分类器,每种分类器 能够独立实现对待检测内容所属类别的检测。具体的,每种分类器可实现对待检测内容进 行至少一种分类的检测,例如检测该待检测内容的类别是属于目标类别,还是不属于目标 类别,或者检测该待检测内容的类别属于多种目标类别中的哪种目标类别。 各种分类器的创建过程可具体为:对样本库存储中的大量样本进行训练;根据训 练结果得到属于本分类器的分类模型。分类模型作为分类器的一部分,其输入和输出即为 其相应分类器的输入和输出。其中,样本库中存储的大量样本需包括其类别属于目标类别 的一组样本和其类别不属于目标类别的另一组样本;对样本的训练包括对样本进行特征提 取,该特征提取算法应与上述对待检测内容的特征提取算法相一致。 在对待检测内容进行特征提取之后,可将其特征提取结果分别作为所述至少两种 分类器的分类模型的输入,以采用各分类模型分别对特征提取结果进行处理来生成对应于 待检测内容的类别检测结果,并将类别检测结果输出。 在本专利技术实施例中,与待检测内容相适配的至少两种分类器可包括以下分类 器中的至少两种:支持向量机(SVM,Support Vector Machine)分类器、朴素贝叶斯 (Bayes)分类器、K 近邻距离(KNN,k-NearestNeighbor)分类器、决策树(ID3, Iterative Dichotomiser 3)分类器以及逻辑回归(Logistic)分类器。 操作130、根据至少两种分类器得到的类别检测结果,确定对应于待检测内容的最 终类别检测结果。 在采用不同种分类器分别对待检测内容的类别进行检测后,可基于设定规则,对 所得到的类别检测结果进行处理,以确定对应于待检测内容的最终类别检测结果。具体的 处理过程可以是:统计所得到的所有类别检测结果中各个具有相同类别检测结果的个数; 将个数最大的情况下所对应的相同类别检测结果作为对应于待检测内容的最终类别检测 结果。例如,分别采用了 5种分类器对待检测内容的类别进行检测,其检测结果依次为:待 检测内容属于目标类别、不属于目标类别、属于目标类别、不属于目标类别、属于目标类别, 则处理过程中所得到的统计结果为:检测结果为待检测内容属于目标类别的个数为3,检 测结果为待检测内容不属于目标类别的个数为2,因此对应于待检测内容的最终类别检测 结果为:目标检测内容属于目标类别。 当然,其处理过程还可以是其他方式,本实施例对此不作限定。例如,可预先针对 不同的类别检测结果赋予不同的取值,例如赋予类别检测结果是待检测内容属于第1目标 类别的取值为1,类别检测结果是待检测内容属于第2目标类别的取值为2,类别检测结果 既不属于第1目标类别,也不属于第2目标类别的取值为0;然后,将所有类别检测结果对 应的取值进行加权得到一个新的取值,进而根据新的取值确定对应于待检测内容的最终类 别检测结果。其中,任一类别检测结果的取值所对应的权重,可以是预先为得到该类别检测 结果所对应的分类器赋予本文档来自技高网...
内容类别检测方法及装置

【技术保护点】
一种内容类别检测方法,其特征在于,包括:对待检测内容进行特征提取;根据特征提取结果,采用与所述待检测内容相适配的至少两种分类器,对所述待检测内容进行类别检测;根据所述至少两种分类器得到的类别检测结果,确定对应于所述待检测内容的最终类别检测结果。

【技术特征摘要】
1. 一种内容类别检测方法,其特征在于,包括: 对待检测内容进行特征提取; 根据特征提取结果,采用与所述待检测内容相适配的至少两种分类器,对所述待检测 内容进行类别检测; 根据所述至少两种分类器得到的类别检测结果,确定对应于所述待检测内容的最终类 别检测结果。2. 根据权利要求1所述的类别检测方法,其特征在于,在对待检测内容进行特征提取 之前,还包括:根据统一资源定位符获取网页内容,作为待检测内容; 对待检测内容进行特征提取,包括: 如果所述网页内容中包含文本内容,则基于文本特征提取算法对所述文本内容进行特 征提取,并将特征提取结果添加至网页内容的特征集合; 如果所述网页内容中包含图片内容,则对所述图片内容进行目标特征识别,根据目标 特征识别结果建立所述图片内容的特征向量,添加至所述网页内容的特征集合。3. 根据权利要求2所述的类别检测方法,其特征在于,所述文本特征提取算法为卡方 算法; 对所述图片内容进行目标特征识别,根据目标特征识别结果建立所述图片内容的特征 向量,包括: 采用统计直方图模型对所述图片内容进行肤色检测; 根据肤色检测结果建立所述图片内容的特征向量,其中所述特征向量是由以下元素中 的至少一个所构成的向量: 肤色连通区域个数、肤色区域占整个图片区域的比例、肤色区域占肤色外接矩形的比 例、最大肤色连通区域占整个图片区域的比例、最大肤色连通区域占肤色外接矩形的比例 和图片中心区域肤色比例。4. 根据权利要求1-3中任一项所述的类别检测方法,其特征在于,所述至少两种分类 器包括以下分类器中的至少两种: 支持向量机分类器、朴素贝叶斯分类器、K近邻距离分类器、决策树分类器以及逻辑回 归分类器。5. 根据权利要求1-3中任一项所述的类别检测方法,其特征在于,根据所述至少两种 分类器得到的类别检测结果,确定对应于所述待检测内容的最终类别检测结果,包括: 根据如下公式的计算结果,确定对应于所述待检测内容的最终类别检测结果:其中,i为整数;η为所述至少两种分类器的总个数;mi为所述至少两种分类器中第i个 分类器的类别检测结果,取值为1或〇,〇代表所述待检测内容的类别为非目标类别,1代表 所述待检测内容的类别为目标类别;Wi为所述第i种分类器的投票权重;σ为设定阈值;r =1表示所述待检测内容的最终类别检测结果是所述目标类别,r = O表示所述待检测内 容的最终类别检测结果不是所述目标类别。6. 根据权利要求5所述的类别检测方法,其特征在于,在根据所述至少两种分类器得 到的类别检测结果,确定对应于所述待检测内容的最终类别检测结果之后,还包括: 将得到的对应于所述待检测内容的最终类别检测结果,与所述至少两种分类器得到的 类别检测结果进行比较,以判断所述至少两种分类器中的分类器是否产生了正确的类别检 测结果,并对比较结果进行存储; 每隔设定的第一周期,根据所存储的比较结果计算一次所述至少两种分类器中的分类 器的检出率,其中所述至少两种分类器中第i种分类器的检出率为:在当前第一周期内第 i种分类器产生的正确的类别检测结果的个数与当前第一周期内第i种分类器产生的所有 类别检测结果的个数的比值。7. 根据权利要求6所述的类别检测方法,其特征在于,在计算得到一次所述至少两种 分类器中的分类器的检出率之后,还包括:按照如下公式更新一次所述至少两种分类器中 的分类器的投票权重:其中,%为本次计算得到的第i种分类器的检出率;Wi'为本次更新后的第i种分类器 的投票权重。8. 根据权利要求6所述的类别检测方法,其特征在于,还包括: 将所述至少两种分类器中的检出率在连续N个第一周期内均小于淘汰阈值的分类器 进行移除,以重新确定与所述待检测内容相适配的分类器,其中所述N为大于1的整数。9. 根据权利要求6所述的类别检测方法,其特征在于,所述至少两种分类器中的分类 器包括存储有初始样本的样本库,以及对所述样本库进行训练得到的用于对所述待检测内 容进行类别检测的分类模型; 在将得到的对应于所述待检测内容的最终类别检测结果,与所述至少两种分类器得到 的类别检测结果进行比较之后,还包括:如果所述至少两种分类器中的分类器产生了错误 的类别检测结果,则将所述待检测内容作为反馈样本,加入产生了错误的类别检测结果的 分类器的样本库中; 每隔设定的第二周期,训练一次在当前第二周期内产生了错误的类别检测结果的分类 器样本库,根据本次训练结果修正所述产生了错误的类别检测结果的分类器的分类模型, 以对所述产生了错误的类别检测结果的分类器进行更新。10. -种内容类别检测装置,其特征在于,包括: 内容特征提取单元,用于对待检测内容进行特征提取; 内容类别检测单元,用于根据特征提取结果,采用与所述待检测内容相适配的至...

【专利技术属性】
技术研发人员:唐呈光张兵杨念耿志峰
申请(专利权)人:安一恒通北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1