一种不良网站的识别方法和识别装置制造方法及图纸

技术编号:26226505 阅读:20 留言:0更新日期:2020-11-04 11:04
本发明专利技术公开了一种不良网站的识别方法和识别装置,该识别方法包括基于深度学习算法建立目标识别模型;获取来自于当前访问网站的网页信息;通过所述目标识别模型对所述网页信息进行识别,判断确定所述网页信息是否包含不良图片信息;若所述网页信息包含不良图片信息,则阻断本次访问。在本发明专利技术中,基于深度学习算法建立目标识别模型,根据目标识别模型对网页内容进行识别,从而确定当前访问网站是否为不良网站。采用本发明专利技术的方案,无需提取出词串,并转成特征向量,实现方式更简单;由于很多不良网站在URL名中没有明显的体现,基于URL识别的准确率较低,采用已经训练好的目标识别模型进行识别,准确率更高。

【技术实现步骤摘要】
一种不良网站的识别方法和识别装置
本专利技术属于网络安全
,更具体地,涉及一种不良网站的识别方法和识别装置。
技术介绍
在网络安全领域,DPI(DeepPacketInspection,简写为DPI)承担了入侵检测、病毒蠕虫检测等重要角色。当前,内容安全在网络安全领域也是一个重要的方面,用户在上网过程中,难免会接触到低俗色情网络资讯,其对社会的危害,特别是对青少年的危害也是显而易见的。为此需要一种从网络DPI层面能够有效减少和阻断则情网站访问的技术方案。现有的色情网站识别技术,其采用基于URL(UniformResourceLocator,简写为URL)来识别,通过从URL中提取出敏感词,将词转换成特征向量,再结合结构特征,通过传统机器学习,例如,贝叶斯方法、SVM(SupportVectorMachine,简写为SVM)等进行二分类来识别。基于URL的色情网站识别方法,其准确率依赖于敏感词特征,而很多色情网站在URL中没有明显体现,其识别准确率较低。鉴于此,克服该现有技术产品所存在的不足是本
亟待解决的问题。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供了一种不良网站的识别方法和识别装置,其目的在于,采用本专利技术的方案,无需提取出词串,并转成特征向量,实现方式更简单;由于很多不良网站在URL名中没有明显的体现,基于URL识别的准确率较低,采用已经训练好的目标识别模型进行识别,准确率更高,从而解决目前识别方式复杂且识别的准确率低的问题。为实现上述目的,按照本专利技术的一个方面,提供一种不良网站的识别方法,所述识别方法包括:基于深度学习算法建立目标识别模型;获取来自于当前访问网站的网页信息;通过所述目标识别模型对所述网页信息进行识别,判断确定所述网页信息是否包含不良图片信息;若所述网页信息包含不良图片信息,则阻断本次访问。优选地,所述基于深度学习算法建立目标识别模型包括:对原有的InceptionV3网络结构进行修改,基于修改后的InceptionV3网络结构建立第一识别模型,其中,所述第一识别模型设置有三个输出类别;获取以InceptionV3作为模型网络结构,并基于ImageNet数据集训练得到的参考识别模型;获取所述参考识别模型的模型参数,基于所述模型参数初始化所述第一识别模型的部分模型参数。优选地,所述基于深度学习算法建立目标识别模型还包括:从互联网中获取多个训练图片,构建自有数据集;采用所述自有数据集对所述第一识别模型进行训练;通过训练后的第一识别模型预测自有数据集,获取被错误分类的图片,将所述被错误分类的图片经过数据增广处理后,添加到自有数据集中,构造目标数据集;通过所述目标数据集,再次对所述第一识别模型进行训练,得到目标训练模型。优选地,所述获取被错误分类的图片,将所述被错误分类的图片经过数据增广处理后,添加到自有数据集中,构造目标数据集包括:将所述被错误分类的图片进行预处理,得到处理后的图片;其中,所述预处理包括随机旋转、缩放、裁剪、水平翻转或上下翻转;将所述处理后的图片添加到所述自有数据集中,构造目标数据集。优选地,所述对原有的InceptionV3网络结构进行修改,基于修改后的InceptionV3网络结构建立第一识别模型包括:将原有的InceptionV3网络结构的最后两层删除;并增加一个单元数为256的全连接层、一个单元数为128的全连接层以及一个单元数为3的输出层,得到修改后的InceptionV3网络结构;基于修改后的InceptionV3网络结构建立第一识别模型。优选地,所述获取来自于当前访问网站的网页信息包括:获取HTTP报文,对所述HTTP报文进行解析,得到网站地址;根据所述网站地址访问所述当前访问网站,获取所述网页信息;启动DPI文件还原服务,根据所述DPI文件还原服务对所述网页信息进行还原,得到还原后的文件;判断所述还原后的文件是否为图片文件;若所述还原后的文件为图片文件,则通过所述目标识别模型对所述网页信息进行识别,判断确定所述网页信息是否包含不良图片信息。优选地,所述获取来自于当前访问网站的网页信息包括:在获取到HTTPS报文后,采用代理服务器对HTTPS协议进行转换得到HTTP协议。优选地,所述识别方法还包括:若所述网页信息包含不良图片信息,则将所述当前访问网站标记为不良网站;若是HTTPS协议,则获取所述不良网站的网站证书;根据所述网站证书得到证书提供商,以通知所述证书提供商对所述不良网站进行内容审查并终止合作。优选地,所述若所述网页信息包含不良图片信息,则阻断本次访问包括:获取所述网页信息包含不良图片信息的概率值;判断所述概率值是否大于预设的色情阈值;若不小于所述预设的色情阈值,所述网页信息包含不良图片信息,则阻断本次访问;若小于所述预设的色情阈值,则判断所述概率值是否大于预设的性感阈值;若不小于所述预设的性感阈值,则标记所述当前访问网站为疑似不良网站,以根据情况选择性允许访问;若小于所述预设的性感阈值,则标记为正常网站,允许访问。为实现上述目的,按照本专利技术的另一个方面,提供了一种识别装置,所述识别装置包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被程序设置为执行本专利技术所述的识别方法。总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,具有如下有益效果:本专利技术提供一种不良网站的识别方法和识别装置,该识别方法包括基于深度学习算法建立目标识别模型;获取来自于当前访问网站的网页信息;通过所述目标识别模型对所述网页信息进行识别,判断确定所述网页信息是否包含不良图片信息;若所述网页信息包含不良图片信息,则阻断本次访问。在本专利技术中,基于深度学习算法建立目标识别模型,根据目标识别模型对网页内容进行识别,从而确定当前访问网站是否为不良网站。采用本专利技术的方案,无需提取出词串,并转成特征向量,实现方式更简单;由于很多不良网站在URL名中没有明显的体现,基于URL识别的准确率较低,采用已经训练好的目标识别模型进行识别,准确率更高。附图说明图1是本专利技术实施例提供的一种不良网站的识别方法的流程示意图;图2是本专利技术实施例提供的另一种不良网站的识别方法的流程示意图;图3是本专利技术实施例提供的建立目标识别模型的流程示意图;图4是本专利技术实施例提供的又一种不良网站的识别方法的流程示意图;图5是本专利技术实施例提供的一种识别装置的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本本文档来自技高网...

【技术保护点】
1.一种不良网站的识别方法,其特征在于,所述识别方法包括:/n基于深度学习算法建立目标识别模型;/n获取来自于当前访问网站的网页信息;/n通过所述目标识别模型对所述网页信息进行识别,判断确定所述网页信息是否包含不良图片信息;/n若所述网页信息包含不良图片信息,则阻断本次访问。/n

【技术特征摘要】
1.一种不良网站的识别方法,其特征在于,所述识别方法包括:
基于深度学习算法建立目标识别模型;
获取来自于当前访问网站的网页信息;
通过所述目标识别模型对所述网页信息进行识别,判断确定所述网页信息是否包含不良图片信息;
若所述网页信息包含不良图片信息,则阻断本次访问。


2.根据权利要求1所述的识别方法,其特征在于,所述基于深度学习算法建立目标识别模型包括:
对原有的InceptionV3网络结构进行修改,基于修改后的InceptionV3网络结构建立第一识别模型,其中,所述第一识别模型设置有三个输出类别;
获取以InceptionV3作为模型网络结构,并基于ImageNet数据集训练得到的参考识别模型;
获取所述参考识别模型的模型参数,基于所述模型参数初始化所述第一识别模型的部分模型参数。


3.根据权利要求2所述的识别方法,其特征在于,所述基于深度学习算法建立目标识别模型还包括:
从互联网中获取多个训练图片,构建自有数据集;
采用所述自有数据集对所述第一识别模型进行训练;
通过训练后的第一识别模型预测自有数据集,获取被错误分类的图片,将所述被错误分类的图片经过数据增广处理后,添加到自有数据集中,构造目标数据集;
通过所述目标数据集,再次对所述第一识别模型进行训练,得到目标训练模型。


4.根据权利要求3所述的识别方法,其特征在于,所述获取被错误分类的图片,将所述被错误分类的图片经过数据增广处理后,添加到自有数据集中,构造目标数据集包括:
将所述被错误分类的图片进行预处理,得到处理后的图片,其中,所述预处理包括随机旋转、缩放、裁剪、水平翻转或上下翻转;
将所述处理后的图片添加到所述自有数据集中,构造目标数据集。


5.根据权利要求2所述的识别方法,其特征在于,所述对原有的InceptionV3网络结构进行修改,基于修改后的InceptionV3网络结构建立第一识别模型包括:
将原有的InceptionV3网络结构的最后两层删除;
并增加一个单元数为256的全连接层、一个单元数为128的全连接层以及一个单元数为3的输出层,得到修改...

【专利技术属性】
技术研发人员:叶志钢乐义华黄华桥程波张宏伟曾伟李竞谭国权王赟
申请(专利权)人:武汉绿色网络信息服务有限责任公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1