一种基于图神经网络的包粒度网络流量分类方法技术

技术编号:35863378 阅读:21 留言:0更新日期:2022-12-07 10:54
本发明专利技术公开了一种基于图神经网络的包粒度网络流量分类方法,包括如下步骤:S1、数据包图构建:将数据包内的字节作为节点,字节与字节间的相关信息作为边,来将数据包转换为一个无向图,得到数据包图;S2、表征学习:利用两层图卷积网络学习所述数据包图中每个节点的表征,并将这些节点的表征进行聚合,得到所述数据包图的表征;S3、分类:将所述数据包图的表征送入分类层,输出网络流量分类结果。本发明专利技术将数据包转换为图像图后,利用图神经网络强大的处理复杂图的能力来分析数据包结构,更好地学习数据包图的表征,有助于显著提升网络流量分类效果和分类准确率。类效果和分类准确率。类效果和分类准确率。

【技术实现步骤摘要】
一种基于图神经网络的包粒度网络流量分类方法


[0001]本专利技术涉及计算机网络与电子信息
,具体涉及一种基于图神经网络的包粒度网络流量分类方法。

技术介绍

[0002]互联网和信息技术是当今世界科学技术研究中发展最为快速的技术之一。我国自接入国际互联网以来,在短短二十多年内,经历了从国际跟跑到国际并跑,再到未来可期的国际领跑三大跨越,取得的巨大成就有目共睹。截至到2018年6月,我国的网民人数已经达到8.02亿,互联网普及率达57.7%,发展速度可谓惊人。互联网技术因其方便快捷,移动性好,价格低廉等特点,正在改变着人们的生活方式。小到聊天、购物、娱乐,大到航天航空、武器导弹都离不开互联网。互联网的飞速发展推动了全球化的生产和生活方式的深刻变革。随着网络理论技术的发展、网络硬件性能的不断增强,整个互联网的流量规模也在不断地增加。人民生活水平的提高推动着网络应用技术的进一步发展,促使网络供应商不断地提升网络服务的水平。如今,现代互联网的流量的多样性和复杂性远远超出了当初底层互联网架构者的想象。
[0003]网络流量是记录和反映网络活动及运营情况的重要载体。随着互联网的高速发展,为了满足互联网用户的多样化需求,各种新的网络服务层出不穷,导致网络流量无论是在数量还是种类上都不断增加。这些新型应用扩大了互联网的应用规模,提供了更丰富的网络服务。但是其采用的应用协议特征也有别于传统的应用类型,变得更加复杂和多样化,给网络流量的管理和规划造成了极大的冲击。
[0004]网络流量分类是指按照网络的应用类型(比如FTP、HTTP、SMTP、360、qq等),将基于TCP/IP协议的网络通信产生的TCP或UDP流量进行分类。网络流量分类技术是保障网络安全的关键技术,也是现代网络管理与安全系统中最基本的功能。同时,网络流量分类技术在QoS服务质量控制、网络应用趋势分析等方面也具有重大的作用,包含极大应用价值,具体体现在:
[0005]1、通过网络流量识别技术,能够掌控网络内部资源的分配情况,网络运营商和网络服务提供商(ISP)可以将其应用到网络服务质量(QoS)控制机制中,保障网络带宽等网络资源的合理分配,从而促进网络向更加合理的方向发展。如果在各网络关口对网络流量进行分类,自适应匹配不同的应用协议,将可以帮助网络管理者对网络流量实施有效的差异化、精细化管理。这样,也有利于解决网络监管中存在的种种问题,为网络用户营造更加健康高效的网络环境。
[0006]2、实现网络流量的识别分类,可以对企业或用户的业务流量进行管理,从而能够宏观上动态调配网络资源,为用户定制合理的网络运营方案,实现更加高效的网络应用。通过识别不同应用的网络流量,公司内部可以在工作时间禁止使用娱乐相关的应用流量,政府部门可以设定禁止非法使用P2P等加密传输业务等。最近兴起的针对特殊应用的专有流量优惠(如腾讯大王卡),更是以网络流量分类技术为核心。
[0007]3、网络流量识别分类对保障网络空间安全具有重要作用。例如,入侵检测系统(IDS)可以利用网络流量分类技术,将恶意网络流量识别出来并采取隔离处理等措施,通过对木马、Web注入等恶意攻击流量的准确识别,提前告警或阻断可能的攻击,实现对网络设备的保护,保障网络系统安全可靠地运行。在政府企业等敏感网络中,还可以利用网络流量分类技术对出入口网络流量进行准确的识别与监管,有效地监控和管理网络流量,防止机密、敏感信息泄露以造成重大的网络信息安全事故。此外,在基于云计算的环境中,网络流量分类技术在确保云计算服务质量方面也发挥着极其重要的作用。
[0008]目前业界已经提出了许多流量分类的方案。譬如公开号CN108650194A的专利文献提出了基于K_means和KNN融合算法的网络流量分类方法。该方法的框架是针对每个应用协议构建一个二分类器,由决策规则将所有分类器的输出整合为最终输出。算法上融合了无监督的K_means算法和有监督的KNN算法,此外,该方法还提出了基于K_means迭代的特征选择算法,目的是选出高分离度的特征,以节省时间、空间和提高分类效果。该方法可以识别出未登录流量,与典型的分类方法相比在功能上有了扩展。但是由于该方法需要针对每种应用类型选出对应的最佳特征集,这就导致其训练和检测速度较慢,系统难以动态地自我更新。对于构建能够高速训练、优化更新和检测的用于实时检测的网络流量分类系统来说,该方法难以成为有效的技术。
[0009]再比如,公开号为CN109361617A的专利文献,提供一种基于网络包载荷的卷积神经网络流量分类方法及系统,其中,方法包括以下步骤:将网络抓包所得pcap文件中所有的数据包传输层的去除头部后的载荷数据提出取来,将数据包的载荷的信息转换为字节序列,随机打乱数据顺序并且进行训练集、验证集和测试集的分割;将结构化的数据输入一维卷积神经网络进行训练,完成神经网络隐藏单元的权重参数调整;在验证集和测试集上进行性能验证,若达不到性能指标,则反馈给模型训练模块继续调整模型参数。该方法可以免除繁琐的人工标注工作,只需要流量数据包的载荷数据即可完成分类。用户只需将模型部署到合适的位置,即可随时随机的截取链路中的数据包输入模型即可得到流量类别结果。虽然该方法在部署行具有一定的便利性,但是只利用普通的卷积神经网络来从数据包负载提取特征未免太过粗糙,分类精度难以保证。
[0010]另外公开号为CN109344204A的专利文献提供一种具有最优个体收敛速率网络流量分类方法,它是一种较为新型的的随机一阶梯度算法,一定程度上能够解决大规模网络数据分类问题。整个步骤包括:输入网络流量,进行必要的预处理工作,划分训练样本与测试样本;每一轮迭代都只随机抽取一个训练样本,采用一种具有最优个体收敛速率的分类算法进行训练模型,计算每一轮迭代的具有稀疏性的权值w,根据w可以进一步计算目标函数值和个体收敛速率;最后用测试样本进行模型的测试,得到网络流量分类的精度。该方法提出的网络流量分类方法,具有个体最优收敛速率,虽然可以有效解决大规模网络流量分类、识别问题,也无需进行特定协议解析,具有一定通用性。但是其每次只能针对一种特定的应用进行分类,并不能识别未知类别流量,而且分类精度也难以保证。
[0011]公开号为CN106533784A的专利文献,提供了一种提高应用层流量分类准确率的方法,其主要包括以下步骤:第一步、将未知应用的应用层流量进行预处理,以作为基于粗糙集的流量特征建模的基础;第二步、基于粗糙集的流量特征进行建模;第三步、选取指导分类的属性;第四步、计算属性的总粗糙度;第五步、按照属性粗糙度对各类进行排序;第六
步、根据粗糙度实施类进行分割;第七步、根据最小描述长度准则,确定最佳聚类簇数。该方法减少不相关流量造成的噪声影响,提高协议关键词提取的准确率,进而可为应用层流量识别、异常检测提供可靠而准确的流量特征。但是该方法需要对所有属性特征的粗糙度进行排序,浪费了一定的时间,并且也没有考虑网络中的噪声流量问题。当网络中的噪声流量较多时,将很大程度上影响流量属性特征的划分准确性,进而影响本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的包粒度网络流量分类方法,其特征在于,包括如下步骤:S1、数据包图构建:将数据包内的字节作为节点,字节与字节间的相关信息作为边,来将数据包转换为一个无向图,得到数据包图;S2、表征学习:利用两层图卷积网络学习所述数据包图中每个节点的表征,并将这些节点的表征进行聚合,得到所述数据包图的表征;S3、分类:将所述数据包图的表征送入分类层,输出网络流量分类结果。2.如权利要求1所述的基于图神经网络的包粒度网络流量分类方法,其特征在于,在步骤S1之前,还包括对数据包进行预处理的步骤S01~S04:S01、只保留有效载荷的数据包;S02、去掉数据包的以太网报头和剩余的IP、传输报头和上层的有效载荷;S03、对于大于110字节的报文,保留前110字节,丢弃其余的字节;S04、匿名化源IP地址和目的IP地址以及端口。3.如权利要求1所述的基于图神经网络的包粒度网络流量分类方法,其特征在于,在步骤S1中,用点互信息来表征字节与字节间的相关信息。4.如权利要求3所述的基于图神经网络的包粒度网络流量分类方法,其特征在于,步骤S1中,通过求解数据包内任意两个字节之间的点互信息,来在点互信息为正值的节点之间构建边。5.如权利要求4所述的基于图神经网络的包粒度网络流量分类方法,其特征在于,数据包内的任意两个字节a与b之间的点互信息PMI(a,b)采用如下方式计算:方式计算:方式计算:方式计算:其中,#W为数据包字节序列中滑动窗口的总数,#W(a)是包含字节a的窗口数,#W(b)是包含字节b的窗口数,#W(a,b)是字节a与b同时出现的窗口数。6.如权利要求1所述的基于图神经网络的包粒度网络流量分类方法,其特征在于,步骤S2中,利用两层图卷积网络学习所述数据包图中每个节点的表征,节点表征的更新公式为:其中,矩阵是新学习到的节点表征;矩阵其中D为数据包图的邻接矩阵,为数据包图的度矩阵;矩阵H∈R
n
×
256
表示字节节点的初始表征;均为参数矩阵;k1和k2分别是W
(0)
和W
(1)
的列维度;n为节点个数;R为实数。7.如权利要求1所述的基于图神经网络的包粒度网络流量分类方法,其特征在于,步骤
S2中,采用均值法、注意力机制法或长短期记忆网络法来对所述数据包图中所有节点的表征进行聚合。8.如权利要求7所述的基于图神经网络的包粒度网络流量分类方法,其...

【专利技术属性】
技术研发人员:胡光武毛科龙但唐仁廖龙延霞刘云霞
申请(专利权)人:深圳信息职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1