【技术实现步骤摘要】
内容类别检测方法及装置
本专利技术实施例涉及分类识别
,尤其涉及一种内容类别检测方法及装置。
技术介绍
随着互联网技术的发展,互联网上的信息每时每刻都在以指数级的速度迅猛的增 力口,人们获取和使用信息的方式也越来越多样和便捷化。但是,互联网在给人们的生活带来 便利的同时,也给人们的生活带来了很多的负面影响。比如,互联网上的一些网站处于盈利 和提高点击率的目的,会将一些不健康的内容展示给用户,从而严重影响了用户的浏览体 验,特别是对于青少年而言,这些内容会对其身心发展产生重要影响。 目前,对网站内容(例如色情内容)的鉴别多数是基于人工的判断,这种方法虽然 准确,但是效率低下,且需要耗费大量的人力和物力,根本无法应对当前网站上日益泛滥的 不良内容。
技术实现思路
本专利技术实施例提供一种内容类别检测方法及装置,以能够对所获取内容的类别进 行自动检测,缩短检测时间,降低检测成本。 第一方面,本专利技术实施例提供了一种内容类别检测方法,该方法包括: 对待检测内容进行特征提取; 根据特征提取结果,采用与所述待检测内容相适配的至少两种分类器,对所述待 检测内容进行类别检测; 根据所述至少两种分类器得到的类别检测结果,确定对应于所述待检测内容的最 终类别检测结果。 第二方面,本专利技术实施例还提供了一种内容类别检测装置,该装置包括: 内容特征提取单元,用于对待检测内容进行特征提取; 内容类别检测单元,用于根据特征提取结果,采用与所述待检测内容相适配的至 少两种分类器,对所述待检测内容进行类别 ...
【技术保护点】
一种内容类别检测方法,其特征在于,包括:对待检测内容进行特征提取;根据特征提取结果,采用与所述待检测内容相适配的至少两种分类器,对所述待检测内容进行类别检测;根据所述至少两种分类器得到的类别检测结果,确定对应于所述待检测内容的最终类别检测结果。
【技术特征摘要】
1. 一种内容类别检测方法,其特征在于,包括: 对待检测内容进行特征提取; 根据特征提取结果,采用与所述待检测内容相适配的至少两种分类器,对所述待检测 内容进行类别检测; 根据所述至少两种分类器得到的类别检测结果,确定对应于所述待检测内容的最终类 别检测结果。2. 根据权利要求1所述的类别检测方法,其特征在于,在对待检测内容进行特征提取 之前,还包括:根据统一资源定位符获取网页内容,作为待检测内容; 对待检测内容进行特征提取,包括: 如果所述网页内容中包含文本内容,则基于文本特征提取算法对所述文本内容进行特 征提取,并将特征提取结果添加至网页内容的特征集合; 如果所述网页内容中包含图片内容,则对所述图片内容进行目标特征识别,根据目标 特征识别结果建立所述图片内容的特征向量,添加至所述网页内容的特征集合。3. 根据权利要求2所述的类别检测方法,其特征在于,所述文本特征提取算法为卡方 算法; 对所述图片内容进行目标特征识别,根据目标特征识别结果建立所述图片内容的特征 向量,包括: 采用统计直方图模型对所述图片内容进行肤色检测; 根据肤色检测结果建立所述图片内容的特征向量,其中所述特征向量是由以下元素中 的至少一个所构成的向量: 肤色连通区域个数、肤色区域占整个图片区域的比例、肤色区域占肤色外接矩形的比 例、最大肤色连通区域占整个图片区域的比例、最大肤色连通区域占肤色外接矩形的比例 和图片中心区域肤色比例。4. 根据权利要求1-3中任一项所述的类别检测方法,其特征在于,所述至少两种分类 器包括以下分类器中的至少两种: 支持向量机分类器、朴素贝叶斯分类器、K近邻距离分类器、决策树分类器以及逻辑回 归分类器。5. 根据权利要求1-3中任一项所述的类别检测方法,其特征在于,根据所述至少两种 分类器得到的类别检测结果,确定对应于所述待检测内容的最终类别检测结果,包括: 根据如下公式的计算结果,确定对应于所述待检测内容的最终类别检测结果:其中,i为整数;η为所述至少两种分类器的总个数;mi为所述至少两种分类器中第i个 分类器的类别检测结果,取值为1或〇,〇代表所述待检测内容的类别为非目标类别,1代表 所述待检测内容的类别为目标类别;Wi为所述第i种分类器的投票权重;σ为设定阈值;r =1表示所述待检测内容的最终类别检测结果是所述目标类别,r = O表示所述待检测内 容的最终类别检测结果不是所述目标类别。6. 根据权利要求5所述的类别检测方法,其特征在于,在根据所述至少两种分类器得 到的类别检测结果,确定对应于所述待检测内容的最终类别检测结果之后,还包括: 将得到的对应于所述待检测内容的最终类别检测结果,与所述至少两种分类器得到的 类别检测结果进行比较,以判断所述至少两种分类器中的分类器是否产生了正确的类别检 测结果,并对比较结果进行存储; 每隔设定的第一周期,根据所存储的比较结果计算一次所述至少两种分类器中的分类 器的检出率,其中所述至少两种分类器中第i种分类器的检出率为:在当前第一周期内第 i种分类器产生的正确的类别检测结果的个数与当前第一周期内第i种分类器产生的所有 类别检测结果的个数的比值。7. 根据权利要求6所述的类别检测方法,其特征在于,在计算得到一次所述至少两种 分类器中的分类器的检出率之后,还包括:按照如下公式更新一次所述至少两种分类器中 的分类器的投票权重:其中,%为本次计算得到的第i种分类器的检出率;Wi'为本次更新后的第i种分类器 的投票权重。8. 根据权利要求6所述的类别检测方法,其特征在于,还包括: 将所述至少两种分类器中的检出率在连续N个第一周期内均小于淘汰阈值的分类器 进行移除,以重新确定与所述待检测内容相适配的分类器,其中所述N为大于1的整数。9. 根据权利要求6所述的类别检测方法,其特征在于,所述至少两种分类器中的分类 器包括存储有初始样本的样本库,以及对所述样本库进行训练得到的用于对所述待检测内 容进行类别检测的分类模型; 在将得到的对应于所述待检测内容的最终类别检测结果,与所述至少两种分类器得到 的类别检测结果进行比较之后,还包括:如果所述至少两种分类器中的分类器产生了错误 的类别检测结果,则将所述待检测内容作为反馈样本,加入产生了错误的类别检测结果的 分类器的样本库中; 每隔设定的第二周期,训练一次在当前第二周期内产生了错误的类别检测结果的分类 器样本库,根据本次训练结果修正所述产生了错误的类别检测结果的分类器的分类模型, 以对所述产生了错误的类别检测结果的分类器进行更新。10. -种内容类别检测装置,其特征在于,包括: 内容特征提取单元,用于对待检测内容进行特征提取; 内容类别检测单元,用于根据特征提取结果,采用与所述待检测内容相适配的至...
【专利技术属性】
技术研发人员:唐呈光,张兵,杨念,耿志峰,
申请(专利权)人:安一恒通北京科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。