一种基于向量化的恶意流量攻击类型的判断方法技术

技术编号:24252315 阅读:60 留言:0更新日期:2020-05-22 23:58
本发明专利技术提供一种基于向量化的恶意流量攻击类型的判断方法,涉及信息处理技术领域。该方法首先把原始流量数据以会话为单位进行长度统一,然后送入自动编码机模型提取大小一致长度适中的会话数据,将处理后的会话数据转化为图像集合,送入卷积神经网络训练得到向量,并与对应统计特征提取的向量进行拼接,得到新的流量向量集合,并放到临时数据库中;对临时数据库中的向量以余弦距离为依据进行聚类,找出聚类中心的向量,构建行为向量库;预处理后的待检测流量向量与行为向量库中向量以余弦距离为依据进行相似度检测,获得待检测流量的流量类型。本发明专利技术方法通过向量距离的计算,提高了检测的效率,有效的降低了相似的恶意流量特征的误判程度。

A judgment method of malicious traffic attack type based on Vectorization

【技术实现步骤摘要】
一种基于向量化的恶意流量攻击类型的判断方法
本专利技术涉及信息处理
,尤其涉及一种基于向量化的恶意流量攻击类型的判断方法。
技术介绍
随着互联网的快速发展,通信网络发展迅猛,网络攻击层出不穷。为保证和提高网络的可用性和可靠性,如何有效预防和检测恶意流量成为业界和学术界共同关注的重点问题。大量文献表明,网络流量在正常运行的情况下是具有一定的周期性和稳定性的,不同时段的不同协议的流量均匀增加或者减少是正常状态,比如节假日时段的不同网络协议的流量比工作时的成相同比例的减少,当流量偏离了其正常的行为,打破这一规律,发生比较明显的突变时,就可能发生了异常。传统检测流量异常的方法分为基于端口和基于深度包检测,这一过程都是依赖于人为制定的规则。人为制定的规则又依赖于人工统计的数据,人工统计这一过程需要大量的人力物力,且效率也不高,制定出来的规则也是固定不变的,不具备可扩展性,这就要求规则制定者考虑全面,提前设定所有可能的异常检测情况,这往往是不现实的。另一方面,传统检测流量异常的方法往往只是检测到了网络流量中的一种或者几种特征向量,而且选取的特征向量没有特定的攻击类型定义,因而检测系统检测时只知道网络中某些特征向量出现了异常,但是不能判断出现了什么样的攻击。随着机器学习技术的迅猛发展以及人工智能产业的迅速崛起,使用机器学习、深度学习方法进行流量异常检测成为业界和学术界关注的重点,相关研究工作已经存在很多,研究成果在一定程度上也推动着流量异常检测工作高效进展。但机器学习技术以及深度学习方法在应用过程中也存在很大的局限性,其中面临的最大挑战是机器学习技术处理的原始数据居多,原始数据中大量无用的数据反而会影响对恶意流量类型的判断,并且使用单一的机器学习模型对恶意流量进行类别判定时,对于未知的恶意流量攻击类型无法做出准确判断,从而引起流量的误判。
技术实现思路
本专利技术要解决的技术问题是针对上述现有技术的不足,提供一种基于向量化的恶意流量攻击类型的判断方法,挖掘数据内的行为特征和统计特征,并用向量表示,达到更好的恶意流量类型检测效果。为解决上述技术问题,本专利技术所采取的技术方案是:一种基于向量化的恶意流量攻击类型的判断方法,包括以下步骤:步骤1、对原始流量数据以会话为单位进行划分,根据已知的流量类型,对划分后的每一条流量数据标记流量类型;所述原始流量数据包括原始的正常流量数据以及原始的异常流量数据;步骤2、构建一个5层的深度自动编码机模型和一个卷积神经网络模型;所述深度自动编码机模型先采用无监督逐层贪心训练算法,完成对隐藏层的预训练,然后采用BP算法对整个模型进行参数优化,使隐藏层节点数从高到低,再从低到高,最终输出第三层节点提取出来的向量;所述卷积神经网络采用残差网络结构,网络整体深度为16,以3*3的小型卷积核和2*2的最大池化层为单元进行叠加而成,最终加以全连接层得出恶意流量类型,最终该模型输出结果为全连接层的输入向量;步骤3、对步骤1中的已标记流量类型的流量数据进行再处理,在保留原数据关键信息的基础上统一数据长度;步骤4、将经过步骤3处理后的数据输入到步骤2构建的自动编码机模型,进行特征提取,突出流量数据中的关键特征,得到大小一致,分布相对均匀的数据集合;步骤5、将步骤4中得到的数据集合中的每一个流量数据转化为十六进制表示形式,然后将流量数据转化为二维数组,最后将二维数组转化为一张灰度图,得到一个图像集合;步骤6、将步骤5得到的图像集合输入到步骤2构建的卷积神经网络结构中,利用卷积神经网络结构进行特征的再提取,输出流量数据向量;步骤7、对原始流量数据进行统计特征提取,再将统计特征向量化,并与步骤6中得到的流量数据向量对应拼接,得到新的流量向量集合,并将新获得的流量向量放入临时数据库中;所述临时数据库存储临时的流量向量数据,在进行聚类操作后,临时数据库会清空;步骤8、根据步骤1中标注的流量类型,对临时数据库中的流量向量进行分类,针对每一类别的流量向量集合根据余弦距离进行聚类,得到聚类中心点向量,以该聚类中心向量代表这一类别的流量类型,保存到行为向量库中;所述行为向量库包括正常向量库和恶意向量库:其中,正常向量库记录了正常行为相关流量的向量,异常向量库记录了异常行为相关流量的向量;步骤9、对于待检测的恶意流量,按照步骤1-步骤7获得其特征的向量化表示,将其与行为向量库中的所有向量进行相似度计算,进而确定流量类型;对于待检测的恶意流量,按照步骤1-步骤7获得其特征的向量化表示,将其与行为向量库中的所有向量进行余弦距离计算,若计算结果大于给定的阈值,则待检测向量可能是该类型的向量,在所有大于阈值的计算结果中取最大值,将待检测向量判定为该流量类型;若计算结果没有超过阈值,则该流量类型为新型恶意流量类别,直接将该向量加入行为向量库中表示一种恶意流量类型;步骤10、将待检测流量向量放入对应临时向量库中,定期对临时向量库进行步骤8中的聚类操作,更新行为向量库中的向量。采用上述技术方案所产生的有益效果在于:本专利技术提供的一种基于向量化的恶意流量攻击类型的判断方法,通过深度自动编码机模型统一数据长度、最小化损失原始数据集的特征,并将统一后的数据转化为图像,利用卷积神经网络提取图像化数据的全部特征从而得到向量表示,即一个向量代表一个会话的流量特征,解决了分散的向量无法代表具有时间特征的数据的问题,并且这一操作极大的降低了后续需要处理的数据量,提高了数据处理的效率。考虑到原始流量数据中包含的部分冗余无用的特征不仅对类型判别没有起到太大的作用,反而会影响判断结果准确性,所以本专利技术中从原始流量数据提取的向量和统计特征提取向量进行拼接的操作,降低原始数据中无用特征的占比,科学全面体现会话的流量特征。针对待检测的流量,在判断流量类型的过程中,将待检测的流量数据进行向量化,并计算与行为向量库中已有的向量集合之间的余弦距离,评估向量之间的相似度,这一操作使得检测恶意流量同时具备误用检测和异常检测的特点,解决了传统只能检测固定已知的恶意流量攻击类型的局限性:在区别出恶意流量具体的攻击类型的同时,也识别出未知的恶意攻击类型,具有可扩展性;同时向量距离计算的科学高效性也提高了检测的效率,有效的降低了相似的恶意流量特征的误判程度。附图说明图1为本专利技术实施例提供的一种基于向量化的恶意流量攻击类型的判断方法的流程图;图2为本专利技术实施例提供的一种基于向量化的恶意流量攻击类型的判断方法的具体过程图;图3为本专利技术实施例提供的原始流量数据向量化过程的流程图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。本实施例中,一种基于向量化的恶意流量攻击类型的判断方法,如图1和2所示,包括以下步骤:步骤1、对原始流量数据以会话为单位进行划分,根据已知的流量类型,对划分后的每一条流量数据标记流量类型;所述原始流量数据包括原始本文档来自技高网
...

【技术保护点】
1.一种基于向量化的恶意流量攻击类型的判断方法,其特征在于:包括以下步骤:/n步骤1、对原始流量数据以会话为单位进行划分,根据已知的流量类型,对划分后的每一条流量数据标记流量类型;所述原始流量数据包括原始的正常流量数据以及原始的异常流量数据;/n步骤2、构建一个5层的深度自动编码机模型和一个卷积神经网络模型;/n步骤3、对步骤1中的已标记流量类型的流量数据进行再处理,在保留原数据关键信息的基础上统一数据长度;/n步骤4、将经过步骤3处理后的数据输入到步骤2构建的自动编码机模型中,进行特征提取,突出流量数据中的关键特征,得到大小一致,分布相对均匀的数据集合;/n步骤5、将步骤4中得到的数据集合中的每一个流量数据转化为十六进制表示形式,然后再将流量数据转换成二维数组,最后将二维数组转化为一张灰度图,得到一个图像集合;/n步骤6、将步骤5得到的图像集合输入到步骤2构建的卷积神经网络结构中,利用卷积神经网络结构进行特征的再提取,输出流量数据向量;/n步骤7、对原始流量数据进行统计特征提取,再将统计特征向量化,并与步骤6中得到的流量数据向量对应拼接,得到新的流量向量集合,并将新获得的流量向量放入临时数据库中;所述临时数据库存储临时的向量数据,在进行聚类操作后,临时数据库会清空;/n步骤8、根据步骤1中标注的流量类型,对临时数据库中的流量向量进行分类,针对每一类别的流量向量集合根据余弦距离进行聚类,得到聚类中心点向量,以该聚类中心向量代表这一类别的流量类型,保存到行为向量库中;/n步骤9、对于待检测的恶意流量,按照步骤1-步骤7获得其特征的向量化表示,将其与行为向量库中的所有向量进行相似度计算,进而确定流量类型;/n步骤10、将待检测流量向量放入对应临时向量库中,定期对临时向量库进行步骤8中的聚类操作,更新行为向量库中的向量。/n...

【技术特征摘要】
1.一种基于向量化的恶意流量攻击类型的判断方法,其特征在于:包括以下步骤:
步骤1、对原始流量数据以会话为单位进行划分,根据已知的流量类型,对划分后的每一条流量数据标记流量类型;所述原始流量数据包括原始的正常流量数据以及原始的异常流量数据;
步骤2、构建一个5层的深度自动编码机模型和一个卷积神经网络模型;
步骤3、对步骤1中的已标记流量类型的流量数据进行再处理,在保留原数据关键信息的基础上统一数据长度;
步骤4、将经过步骤3处理后的数据输入到步骤2构建的自动编码机模型中,进行特征提取,突出流量数据中的关键特征,得到大小一致,分布相对均匀的数据集合;
步骤5、将步骤4中得到的数据集合中的每一个流量数据转化为十六进制表示形式,然后再将流量数据转换成二维数组,最后将二维数组转化为一张灰度图,得到一个图像集合;
步骤6、将步骤5得到的图像集合输入到步骤2构建的卷积神经网络结构中,利用卷积神经网络结构进行特征的再提取,输出流量数据向量;
步骤7、对原始流量数据进行统计特征提取,再将统计特征向量化,并与步骤6中得到的流量数据向量对应拼接,得到新的流量向量集合,并将新获得的流量向量放入临时数据库中;所述临时数据库存储临时的向量数据,在进行聚类操作后,临时数据库会清空;
步骤8、根据步骤1中标注的流量类型,对临时数据库中的流量向量进行分类,针对每一类别的流量向量集合根据余弦距离进行聚类,得到聚类中心点向量,以该聚类中心向量代表这一类别的流量类型,保存到行为向量库中;
步骤9、对于待检测的恶意流量,按照步骤1-步骤7获得其特...

【专利技术属性】
技术研发人员:赵玉媛吴振豪陈钟李青山杨可静兰云飞吴琛李洪生王晓青
申请(专利权)人:博雅信安科技北京有限公司北京国信云服科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1