一种基于深度学习的垂直类恶意爬虫流量识别方法技术

技术编号:24862929 阅读:27 留言:0更新日期:2020-07-10 19:13
一种基于深度学习的垂直类恶意爬虫流量识别方法,属于互联网技术领域。本发明专利技术将深度学习用于网站访问行为的流量识别,通过对访问行为特征的分类,对存在恶意爬虫行为的流量进行身份识别,包括三部分:一是将网站访问流量编码成三维向量,二是通过三维卷积神经网络进行识别训练,三是通过对网络参数的优化,最终建立对恶意爬虫流量的分类识别模型。本发明专利技术通过深度学习来对网站访问流量进行分类识别,提高网站对恶意爬虫流量识别的准确率,网站可以依据此识别结果,部署相应的安全策略,以提高网站性能,降低网站冗余负载。

【技术实现步骤摘要】
一种基于深度学习的垂直类恶意爬虫流量识别方法
本专利技术属于计算机网络安全
,具体涉及一种基于深度学习的恶意爬虫流量识别方法。技术背景爬虫是当今互联网使用非常广泛的技术之一,现已应用于金融、贸易与信息科技等诸多领域,很多工作展开的前期调研、资料收集就是依靠爬虫程序完成,将爬取的内容进行清洗和处理,得到的就是极具有价值的数据。值得令人关注的是,部分爬虫程序为了在最短的时间内获取到最大量的数据,会采用多线程,高并发,甚至分布式等技术,这将极大的增加服务器压力。我们将这种爬虫产生的流量归为恶意爬虫流量,这类流量带给服务器的压力是非常巨大的,企业为了保证服务器的正常运转,不得不增加成本购置性能更强的服务器,或者设置各式各样的复杂验证码,拦截爬虫。前者会大幅增加企业的开销,后者则会极大的降低用户体验。传统的流量检测技术有基于端口识别的流量检测,基于网络协议的深度包检测,还有基于机器学习的流量检测。其中基于端口的分类方法已经落后于时代,当前的网络应用开始大幅采用随机端口以减少拥堵;而深度包检测只针对协议特征明显的流量具有识别效果,本文档来自技高网...

【技术保护点】
1.一种基于深度学习的垂直类恶意爬虫流量识别方法,其特征是该方法包括以下步骤:/n(1)将样本数据分为训练集和测试集,对训练数据集进行归一化预处理;/n(2)将预处理后的训练数据输入神经网络模型进行训练;/n(3)将测试集进行归一化和补0处理,处理后输入到步骤(2)的训练完成后的模型中,识别出流量的类别。/n

【技术特征摘要】
1.一种基于深度学习的垂直类恶意爬虫流量识别方法,其特征是该方法包括以下步骤:
(1)将样本数据分为训练集和测试集,对训练数据集进行归一化预处理;
(2)将预处理后的训练数据输入神经网络模型进行训练;
(3)将测试集进行归一化和补0处理,处理后输入到步骤(2)的训练完成后的模型中,识别出流量的类别。


2.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法,其特征是进一步的,所描述的步骤(1)具体包括如下:
a.构建实验环境,部署相应的实验机器,用于获取原始流量数据,对目标网站进行为期一周的流量采集;
b.将网站访问流量按照一定的时间间隔进行提取保存,再在每阶段时间中的原始数据包中保留相同的长度,若长度不足则补0处理,将每条数据包的序列最为一个维度,编码转换成二维数据,组合时序维度并进行归一化,即预处理后的数据相当于视频处理中的多帧灰度图,构成三维卷积网络的输入。


3.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法,其特征是进一步的,所描述的步骤(2)具体包括如下:
所采用的神经网络模型为三维卷积神经网络模型,将预处理后的数据输入模型中训练,并且通过网络反馈的结果不断优化参数,利用梯度下降法,逐步优化出最终的流量分类识别模型。


4.根据权利要求1所述的基于深度学习的垂直类恶意爬虫流量识别方法,其特征是总体流程主要为以下四步:
Step1:构建训练数据集;
Step2:使用三维卷积神经网络训练模型;
Step3:调整出最优的识别模型;
Step4:测试数据,完成流量识别;
Step1的具体实施如下:
(1)在实验网络内设立目标机器,在其设备上部署具有一定信息量的无任何防御措施的目标网站;
(2)为提高样本采集速度,将目标网站作完全静态化处理,为了保证足量的样本数据与采集效率,将爬虫程序部署在高性能采集节点与一般性能节点中;
(3)高性能采集节点对爬虫采集速度设定每秒x次,共采集24*7小时,每一小时封存一次数据,一般性能节点有人工产生访问数据并保存数据;
(4)数据预处理,由于对网站的访...

【专利技术属性】
技术研发人员:刘兰刘浪洲王鹏铖
申请(专利权)人:广东技术师范大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1