当前位置: 首页 > 专利查询>燕山大学专利>正文

基于弱监督学习的App图像内容安全检测方法技术

技术编号:30687796 阅读:14 留言:0更新日期:2021-11-06 09:20
本发明专利技术涉及一种基于弱监督学习的App图像内容安全检测方法。其包括算法部分,对应的检测器是一个卷积神经网络框架,本发明专利技术算法backbone部分采用的是Resnet。基于Resnet网络的优点,使得学习结果堆网络权重的波动变化更加敏感,同时残差结果对数据的波动更加敏感。另外,本发明专利技术的算法部分还加入了Inception结构,其结构在控制了计算量和参数的同时,获得了良好的分类。本方法提出采取弱监督学习的方法,通过改变模型参数,可构建见出不同的App内容检测器,剔除不良、违法信息,为人们提供一个优质、安全的网络环境;传统基于监督学习的图片检测方法的数据集标注主要靠人工,本发明专利技术采用弱监督学习方法,可大大降低人力成本。可大大降低人力成本。可大大降低人力成本。

【技术实现步骤摘要】
基于弱监督学习的App图像内容安全检测方法


[0001]本专利技术涉及图像目标检测
,具体涉及一种基于弱监督学习的App图像内容安全检测方法。

技术介绍

[0002]随着互联网行业的不断发展,各种各样的App已经与人们的生活息息相关。各种App的发展在方便人们生活的同时也隐含了大量的不良、违法信息。对于互联网公司来说,这些有害信息会使得App在应用商店里被下架,造成公司盈利上的损失;对于网民来说,有害信息的传播不利于青少年身心健康。因此,无论从哪个角度来看,App内容安全检测都是至关重要。
[0003]早期的App图像内容安全检测主要依靠人工识别,虽然人工审核的准确率比较可靠,但是纯人工检测的处理速度比较慢、效率低,同时对人工培训的代价过于庞大,对于中小企业来说是一个非常大的负担。近年来随着人工智能的发展,深度学习技术也应用到了App图像内容检测。传统的深度学习图像检测方法都是先用标注好的训练集放入到模型进行训练,这样虽然解决了上述人工检测存在的问题,但是用公开数据集进行训练的模型不太具有针对性。线上数据集的图像质量较差、特征大小不一、还有存在着人为掩盖的现象。因此,获取针对性的数据集的高置信标注是一个难点问题。

技术实现思路

[0004]本专利技术的目的是为了克服
技术介绍
中的不足之处,基于弱监督学习的App图像内容安全检测方法,融合弱监督学习以及多任务学习技术,构建一个可为App检测系统内部以及用户上传图片的方法。该方法是将弱监督学习的方法运用到数据集中,大量噪声标注数据和少量干净标注数据进行多任务训练,提升图像分类效果的同时也大大降低了图片标注的任务量,增强了该方法的鲁棒性。与此同时,该方法还增强了图像内容识别的泛化能力,可以适用于多种场景的App图像内容检测。
[0005]为了解决上述存在的技术问题,本专利技术是通过以下技术方案实现的:
[0006]一种基于弱监督学习的App图像内容安全检测方法,其包括以下步骤:
[0007]S1、首先对部分数据进行预处理,进而采用K

Means聚类算法对数据进行训练,K

Means算法将给定的数据集,按照样本之间的距离大小,将样本划分为K个数据簇,让簇内的点紧密相连,而让组间的距离拉大,将簇划分为(C1,C2,...C
k
),最小化平方误差E为:
[0008][0009]其中,μ
i
是簇C
i
的均值向量,x为样本点的坐标,k为数据簇的个数;
[0010]S2、训练完成之后会生成权重文件,然后将其余数据输出送入Inception,通过Inception再与Resnet的输出相拼接,从而构成检测器,所述检测器以神经网络为基础框
架,通过组合其中的神经元以达到输出要求,单个神经元的表达式为:
[0011][0012]其中,为上一级神经元的输入,为本级神经元的输出,代表各个神经元连接的权重,为偏置单元,用以修正输出,模型最终权重通过反向传播训练所获得;
[0013]所述检测器的使用步骤如下:
[0014]S21、采集用于训练检测器模型的数据,原始数据用数组的方式进行存储;
[0015]S22、对采集到的数据进行贴标签处理,一张图片对应着一个标签,标签采用one

hot格式,以方便计算机进行处理;
[0016]S23、采用弱监督学习的方式,对部分图片进行处理,将处理过的数据放入模型中进行多次训练,采用Adam作为函数优化器,初步迭代500次,判断模型是否收敛,若收敛则根据模型损失来挑选出最优模型参数进行保存,用于之后的App图片检测,若不收敛,则继续进行迭代;
[0017]S24、App端收集需要进行检测的图片,将图片传输到模型中进行检测,如果图片内容符合要求,则检测结束,如果图片不符合要求,则对App发出修改信息。
[0018]优选地,所示检测器采用卷积神经网络框架,使用卷积层,采用的局部连接和权值共享的方式,减少权值的数量使得网络易于优化,同时降低模型的复杂度,减少过拟合的风险。
[0019]优选地,收集含有违法信息的图片,并进行打包处理,若为单一类别检测模式,则将每个类别区分开来,然后将每个类别中的50%的数据进行贴标签处理;若为多类别检测模式,则将所有的图片均匀混合,然后将所有数据的50%进行贴标签处理。
[0020]优选地,所收集的图片中,50%的图片用Python中特有的库进行精准标注,其余图片利用K

Means算法进行聚类标注。
[0021]优选地,采用弱监督学习方法以减少数据标签的依赖性,降低前期的准备工作,整个算法的流程近似残差结构,使神经网络学习数据处理和未处理之间的差异,更好地检测出特征。
[0022]优选地,模型的backbone部分采用Resnet,使得学习结果堆网络权重的波动变化更加敏感,同时残差结果对数据的波动更加敏感,在算法部分加入Inception结构,其结构能控制计算量和参数,获得良好的分类。
[0023]优选地,训练App内容检测器的过程为:首先分别将精准标注的数据集和用K

Means算法标注的数据集并行地整合成一个Image batch,然后将这批数据送入到以卷积神经网络为核心的backbone中,本专利技术采用的backbone为Resnet。
[0024]与现有技术相比,本专利技术具有以下有益效果:
[0025](1)本专利技术应用于检测App图片内容时,能够根据需要,选择单一类别内容检测和多种类别内容检测,例如检测诈骗图片,通过改变该网络的权重参数,可以实现这种特定的类别内容检测;
[0026](2)本方法提出采取弱监督学习的方法,通过改变模型参数,可构建见出不同的App内容检测器,剔除不良、违法信息,为人们提供一个优质、安全的网络环境。
附图说明
[0027]图1为本专利技术的整体流程图;
[0028]图2为本专利技术的信息采集部分流程图;
[0029]图3为本专利技术数据标注流程图;
[0030]图4本专利技术的核心算法流程图;
[0031]图5为本专利技术训练检测不同内容的算法流程图;
[0032]图6为本专利技术的检测结果图。
具体实施方式
[0033]下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅为本专利技术的一部分实施例,而不是全部实施例。通常在此处附图中描述和展示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术实施例的详细描述并非旨在限制本专利技术要求保护的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的其他所有实施例,都属于本专利技术保护的范围。
[0034]以下结合附图与具体实施方式对本专利技术做更为详细的说明:图1所示为本专利技术的整体流程图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于弱监督学习的App图像内容安全检测方法,其特征在于,其包括以下步骤:S1、首先对部分数据进行预处理,进而采用K

Means聚类算法对数据进行训练,K

Means算法将给定的数据集,按照样本之间的距离大小,将样本划分为K个数据簇,让簇内的点紧密相连,而让组间的距离拉大,将簇划分为(C1,C2,...C
k
),最小化平方误差E为:其中,μ
i
是簇C
i
的均值向量,x为样本点的坐标,k为数据簇的个数;S2、训练完成之后会生成权重文件,然后将其余数据输出送入Inception,通过Inception再与Resnet的输出相拼接,从而构成检测器,所述检测器以神经网络为基础框架,通过组合其中的神经元以达到输出要求,单个神经元的表达式为:其中,为上一级神经元的输入,为本级神经元的输出,代表各个神经元连接的权重,为偏置单元,用以修正输出,模型最终权重通过反向传播训练所获得;所述检测器的使用步骤如下:S21、采集用于训练检测器模型的数据,原始数据用数组的方式进行存储;S22、对采集到的数据进行贴标签处理,一张图片对应着一个标签,标签采用one

hot格式,以方便计算机进行处理;S23、采用弱监督学习的方式,对部分图片进行处理,将处理过的数据放入模型中进行多次训练,采用Adam作为函数优化器,初步迭代500次,判断模型是否收敛,若收敛则根据模型损失来挑选出最优模型参数进行保存,用于之后的App图片检测,若不收敛,则继续进行迭代;S24、App端收集需要进行检测的图片,将图片传输到模型中进行检测,如果图片内容符合要求,则检测结束,如果图片不符合要求,则对App发出修改信息。2.根据...

【专利技术属性】
技术研发人员:张立国秦芊金梅王磊申前孟子杰黄文汉薛静芳
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1