一种不良网站的识别方法和识别装置制造方法及图纸

技术编号：26226505 阅读：20 留言：0更新日期：2020-11-04 11:04

本发明专利技术公开了一种不良网站的识别方法和识别装置，该识别方法包括基于深度学习算法建立目标识别模型；获取来自于当前访问网站的网页信息；通过所述目标识别模型对所述网页信息进行识别，判断确定所述网页信息是否包含不良图片信息；若所述网页信息包含不良图片信息，则阻断本次访问。在本发明专利技术中，基于深度学习算法建立目标识别模型，根据目标识别模型对网页内容进行识别，从而确定当前访问网站是否为不良网站。采用本发明专利技术的方案，无需提取出词串，并转成特征向量，实现方式更简单；由于很多不良网站在URL名中没有明显的体现，基于URL识别的准确率较低，采用已经训练好的目标识别模型进行识别，准确率更高。

全部详细技术资料下载

【技术实现步骤摘要】
一种不良网站的识别方法和识别装置
本专利技术属于网络安全
，更具体地，涉及一种不良网站的识别方法和识别装置。
技术介绍
在网络安全领域，DPI(DeepPacketInspection，简写为DPI)承担了入侵检测、病毒蠕虫检测等重要角色。当前，内容安全在网络安全领域也是一个重要的方面，用户在上网过程中，难免会接触到低俗色情网络资讯，其对社会的危害，特别是对青少年的危害也是显而易见的。为此需要一种从网络DPI层面能够有效减少和阻断则情网站访问的技术方案。现有的色情网站识别技术，其采用基于URL(UniformResourceLocator，简写为URL)来识别，通过从URL中提取出敏感词，将词转换成特征向量，再结合结构特征，通过传统机器学习，例如，贝叶斯方法、SVM(SupportVectorMachine，简写为SVM)等进行二分类来识别。基于URL的色情网站识别方法，其准确率依赖于敏感词特征，而很多色情网站在URL中没有明显体现，其识别准确率较低。鉴于此，克服该现有技术产品所存在的不足是本
亟待解决的问题。
技术实现思路
针对现有技术的以上缺陷或改进需求，本专利技术提供了一种不良网站的识别方法和识别装置，其目的在于，采用本专利技术的方案，无需提取出词串，并转成特征向量，实现方式更简单；由于很多不良网站在URL名中没有明显的体现，基于URL识别的准确率较低，采用已经训练好的目标识别模型进行识别，准确率更高，从而解决目前识别方式复杂且识别的准确率低的问题。为实现...

【技术保护点】
1.一种不良网站的识别方法，其特征在于，所述识别方法包括：/n基于深度学习算法建立目标识别模型；/n获取来自于当前访问网站的网页信息；/n通过所述目标识别模型对所述网页信息进行识别，判断确定所述网页信息是否包含不良图片信息；/n若所述网页信息包含不良图片信息，则阻断本次访问。/n

【技术特征摘要】
1.一种不良网站的识别方法，其特征在于，所述识别方法包括：
基于深度学习算法建立目标识别模型；
获取来自于当前访问网站的网页信息；
通过所述目标识别模型对所述网页信息进行识别，判断确定所述网页信息是否包含不良图片信息；
若所述网页信息包含不良图片信息，则阻断本次访问。

2.根据权利要求1所述的识别方法，其特征在于，所述基于深度学习算法建立目标识别模型包括：
对原有的InceptionV3网络结构进行修改，基于修改后的InceptionV3网络结构建立第一识别模型，其中，所述第一识别模型设置有三个输出类别；
获取以InceptionV3作为模型网络结构，并基于ImageNet数据集训练得到的参考识别模型；
获取所述参考识别模型的模型参数，基于所述模型参数初始化所述第一识别模型的部分模型参数。

3.根据权利要求2所述的识别方法，其特征在于，所述基于深度学习算法建立目标识别模型还包括：
从互联网中获取多个训练图片，构建自有数据集；
采用所述自有数据集对所述第一识别模型进行训练；
通过训练后的第一识别模型预测自有数据集，获取被错误分类的图片，将所述被错误分类的图片经过数据增广处理后，添加到自有数据集中，构造目标数据集；
通过所述目标数据集，再次对所述第一识别模型进行训练，得到目标训练模型。

4.根据权利要求3所述的识别方法，其特征在于，所述获取被错误分类的图片，将所述被错误分类的图片经过数据增广处理后，添加到自有数据集中，构造目标数据集包括：
将所述被错误分类的图片进行预处理，得到处理后的图片，其中，所述预处理包括随机旋转、缩放、裁剪、水平翻转或上下翻转；
将所述处理后的图片添加到所述自有数据集中，构造目标数据集。

5.根据权利要求2所述的识别方法，其特征在于，所述对原有的InceptionV3网络结构进行修改，基于修改后的InceptionV3网络结构建立第一识别模型包括：
将原有的InceptionV3网络结构的最后两层删除；
并增加一个单元数为256的全连接层、一个单元数为128的全连接层以及一个单元数为3的输出层，得到修改...

【专利技术属性】
技术研发人员：叶志钢，乐义华，黄华桥，程波，张宏伟，曾伟，李竞，谭国权，王赟，
申请(专利权)人：武汉绿色网络信息服务有限责任公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人