基于图神经网络的移动网络恶意流量识别方法技术

技术编号：41072502 阅读：3 留言：0更新日期：2024-04-24 11:29

本发明专利技术公开了基于图神经网络的移动网络恶意流量识别方法，具体按照如下步骤实施：步骤1，采集5G网络中的流量数据并进行特征提取以及标注；步骤2，经过XGBoost模型训练获取所有特征列对应的重要性评分，筛选出评分前24名的特征；步骤3，构建数据集，并将数据集划分为训练集和测试集；步骤4，构建恶意流量预测模型EgraphSAGE；步骤5，采用训练集对步骤4构建恶意流量预测模型EgraphSAGE进行训练，得到分类模型；步骤6，将测试集输入到分类模型中，评估分类模型的性能。本发明专利技术解决了现有技术中存在的机器学习方法因忽略了流量间的关系只关注于流量本身特征导致的对恶意流量识别准确率差的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于网络与信息安全入侵检测方法，涉及基于图神经网络的移动网络恶意流量识别方法。

技术介绍

1、随着网络的发展和大数据的爆发，5g移动通信技术应运而生。5g网络具有更高的数据传输速度、更低的延迟和更大的网络容量，支持大规模物联网连接、智慧城市、工业互联网和自动驾驶汽车等新兴应用。但网络安全问题自网络诞生起就一直存在，5g网络也不例外。伴随着攻击也会产生网络中的恶意流量，其指在移动网络中传输的具有恶意意图的数据流。这些数据流可能包含恶意软件、病毒、蠕虫、僵尸网络的命令和控制流量，或用于网络攻击的数据包等。恶意流量的目的可能是入侵系统、窃取敏感信息、破坏或干扰网络服务，或利用受感染的计算机进行其他非法活动。

2、5g网络的数据流量和一般网络都是通过数据流量来传输信息和进行通信的，底层都使用tcp/ip协议套件进行数据传输和通信。不同于一般网络，5g在协议上引入了新的协议和技术，如新的移动通信协议，如ngap、http2、gtp、5g-nas、网络切片和多路访问技术；在核心网架构上，一般网络，如4g的核心网架构通常是基于传统的分层模型，包括核心网、无线接入网和用户设备。而5g网络采用了一种基于云的虚拟化架构，将核心网功能分解为多个网络功能虚拟化nfv和软件定义网络sdn的实体。其核心网结构引入了新的概念，如网络切片和边缘计算；在网络攻击上，由于5g网络的复杂性和新技术的引入，可能会出现一些特定的网络攻击。例如，虚拟化和软件定义网络的攻击，如虚拟网络功能的漏洞利用等、边缘计算节点的入侵或网络切片的跨切片攻击。现有主动

3、目前，移动网络恶意流量识别的方法大多都是机器学习方法，使用机器学习算法对流量数据进行建模和分类，如决策树、支持向量机、随机森林等。但这些机器学习方法都忽略了流量间的关系，只关注于流量本身的特征，对于恶意流量识别准确率差，模型的解释性有限。

技术实现思路

1、本专利技术的目的是提供基于图神经网络的移动网络恶意流量识别方法，解决了现有技术中存在的机器学习方法因忽略了流量间的关系只关注于流量本身特征导致的对恶意流量识别准确率差的问题。

2、本专利技术所采用的技术方案是，基于图神经网络的移动网络恶意流量识别方法，具体按照如下步骤实施：步骤1，采集5g网络中的流量数据，然后通过cicflowmeter工具对采集的流量数据进行特征提取，每条流量数据包含84列特征，人工对提取的label特征进行标注，标注后的数据作为原始数据；步骤2，对原始数据进行预处理，丢弃每个预处理后的原始数据中的src ip，dst ip，src port，dst port四个特征，然后将丢弃上述四个特征的原始数据经过xgboost模型训练获取所有特征列对应的重要性评分，筛选出评分前24名的特征；步骤3，将步骤2提取的原始数据中的评分前24名的特征与丢弃的src ip，dst ip，srcport，dstport四个特征合并，得到新的数据集，并将数据集划分为训练集和测试集；步骤4，构建恶意流量预测模型egraphsage；步骤5，采用训练集对步骤4构建恶意流量预测模型egraphsage进行训练，得到分类模型；步骤6，将测试集输入到分类模型中，评估分类模型的性能。

3、本专利技术的特征还在于，

4、步骤1中采集5g网络中的流量数据具体为：通过tcpdump命令在虚拟机中抓取正常5g注册、上网流量和部署四种异常场景中捕获的流量数据，流量数据的形式为pcap文件；

5、步骤1中人工标注是指在label特征下人工标注的流量类型，流量类型为：正常背景流量数据和异常样本流量数据；

6、人工标注的流量类型为通过标签编码的方法对label特征进行编码，用编码结果指代具体的流量类型。

7、步骤2中的预处理具体为：

8、将原始数据特征中所有的inf值和nan值替换为0；将原始数据特征中的所有ip地址进行映射到随机分配的ip地址。

9、步骤2中丢弃每个预处理后的原始数据中的src ip，dst ip，src port，dst port四个特征，然后再丢弃“flow id”特征和“timestamp”特征，然后将剩余除去label特征外的77列特征作为xgboost模型的特征输入，将label特征作为xgboost模型的标签输入，通过xgboost模型的feature_importances_属性来得到所有特征列的重要性评分，通过排序获得除了label特征之外其他77列特征中评分前24名的特征列。

10、步骤3具体为：

11、步骤3.1，将每个原始数据的src ip，dst ip，src port，dstport四个特征构建为src ip和src port、dst ip和dst port这两个二元组，然后将每个原始数据经过步骤2提取的前24名特征与这两个二元组合并，即最终得到的每条流量数据为一个具有26列特征的数据；

12、步骤3.2，将经过步骤3.1处理的所有流量数据作为数据集样本，将数据集样本分为训练集和测试集；

13、步骤3.3，将训练集和测试集的中所有流量数据分别通过networkx库中的from_pandas_edgelist方法构建一个无向图，然后将构建的无向图根据dgl库中from_networkx方法创建一个图g，训练集所有流量数据获得的图g为训练图，测试集的中所有流量数据获得的图g为测试图；

14、步骤3.4，分别对步骤3.3创建的训练图和测试图对应的图g进行元素扩充，得到扩充后的图g，即得到扩充后的训练图和测试图。

15、步骤3.3中将训练集和测试集的中所有流量数据分别通过networkx库中的from_pandas_edgelist方法构建一个无向图具体为：

16、df属性为训练集或测试集流量数据提取的26列特征转化的表格数据，df属性代表需要转化为图的数据，格式为dataframe形式，表格数据为列数为26列特征，行数为训练集或测试集中流量数据的条数，一条数据对应一行；

17、source属性为表格数据中的src ip和src port二元组，source属性是构建的无向图中源节点在df中的有效列名称；

18、target属性为表格数据中的dst ip和dst port二元组，target属性是构建的无向图中目标节点在df中的有效列名称；

19、edge_attr属性为步骤2提取的24列特征和label特征，edge_attr属性是构建的无向图中对应源节点和目标节点的边的特征，即就是边缘特征；

20、create_using属性为multigraph()；

21、设置对应的属性，即可获得一个无向图；

22、步骤3.3中创建的图本文档来自技高网...

【技术保护点】

1.基于图神经网络的移动网络恶意流量识别方法，其特征在于，具体按照如下步骤实施：步骤1，采集5G网络中的流量数据，然后通过CICFlowmeter工具对采集的流量数据进行特征提取，每条流量数据包含84列特征，人工对提取的label特征进行标注，标注后的数据作为原始数据；步骤2，对原始数据进行预处理，丢弃每个预处理后的原始数据中的Src IP，Dst IP，Src Port，Dst Port四个特征，然后将丢弃上述四个特征的原始数据经过XGBoost模型训练获取所有特征列对应的重要性评分，筛选出评分前24名的特征；步骤3，将步骤2提取的原始数据中的评分前24名的特征与丢弃的Src IP，Dst IP，Src Port，Dst Port四个特征合并，得到新的数据集，并将数据集划分为训练集和测试集；步骤4，构建恶意流量预测模型EgraphSAGE；步骤5，采用训练集对步骤4构建恶意流量预测模型EgraphSAGE进行训练，得到分类模型；步骤6，将测试集输入到分类模型中，评估分类模型的性能。

2.根据权利要求1所述的基于图神经网络的移动网络恶意流量识别方法，其特征在于，所述步

3.根据权利要求1所述的基于图神经网络的移动网络恶意流量识别方法，其特征在于，所述步骤2中的预处理具体为：

4.根据权利要求1所述的基于图神经网络的移动网络恶意流量识别方法，其特征在于，所述步骤2中丢弃每个预处理后的原始数据中的Src IP，Dst IP，Src Port，Dst Port四个特征，然后再丢弃“Flow ID”特征和“Timestamp”特征，然后将剩余除去label特征外的77列特征作为XGBoost模型的特征输入，将label特征作为XGBoost模型的标签输入，通过XGBoost模型的feature_importances_属性来得到所有特征列的重要性评分，通过排序获得除了label特征之外其他77列特征中评分前24名的特征列。

5.根据权利要求1所述的基于图神经网络的移动网络恶意流量识别方法，其特征在于，所述步骤3具体为：

6.根据权利要求5所述的基于图神经网络的移动网络恶意流量识别方法，其特征在于，所述步骤3.3中将训练集和测试集的中所有流量数据分别通过networkx库中的from_pandas_edgelist方法构建一个无向图具体为：

7.根据权利要求6所述的基于图神经网络的移动网络恶意流量识别方法，其特征在于，所述步骤3.4具体为：

8.根据权利要求7所述的基于图神经网络的移动网络恶意流量识别方法，其特征在于，所述步骤4中的恶意流量预测模型EgraphSAGE包括依次连接的两个SAGE层、一个Dropout层和一个MLPPredictor层。

9.根据权利要求8所述的基于图神经网络的移动网络恶意流量识别方法，其特征在于，所述步骤5具体为：将步骤3获得扩充后的训练图以及对应所有节点特征和边的特征输入构建的恶意流量预测模型EgraphSAGE中进行训练，其中所有节点特征和边的特征分别对应步骤3.4中ndata中的“h2”属性的值和edata中的“h1”属性的值；

10.根据权利要求9所述的基于图神经网络的移动网络恶意流量识别方法，其特征在于，所述步骤6具体为：将步骤4获得的测试图按照输入到步骤5训练好的恶意流量预测模型EgraphSAGE进行分类测试，通过使用混淆矩阵图、准确率、召回率、F1-score对分类模型进行评价。

...

【技术特征摘要】

1.基于图神经网络的移动网络恶意流量识别方法，其特征在于，具体按照如下步骤实施：步骤1，采集5g网络中的流量数据，然后通过cicflowmeter工具对采集的流量数据进行特征提取，每条流量数据包含84列特征，人工对提取的label特征进行标注，标注后的数据作为原始数据；步骤2，对原始数据进行预处理，丢弃每个预处理后的原始数据中的src ip，dst ip，src port，dst port四个特征，然后将丢弃上述四个特征的原始数据经过xgboost模型训练获取所有特征列对应的重要性评分，筛选出评分前24名的特征；步骤3，将步骤2提取的原始数据中的评分前24名的特征与丢弃的src ip，dst ip，src port，dst port四个特征合并，得到新的数据集，并将数据集划分为训练集和测试集；步骤4，构建恶意流量预测模型egraphsage；步骤5，采用训练集对步骤4构建恶意流量预测模型egraphsage进行训练，得到分类模型；步骤6，将测试集输入到分类模型中，评估分类模型的性能。

2.根据权利要求1所述的基于图神经网络的移动网络恶意流量识别方法，其特征在于，所述步骤1中采集5g网络中的流量数据具体为：通过tcpdump命令在虚拟机中抓取正常5g注册、上网流量和部署四种异常场景中捕获的流量数据，流量数据的形式为pcap文件；

3.根据权利要求1所述的基于图神经网络的移动网络恶意流量识别方法，其特征在于，所述步骤2中的预处理具体为：

4.根据权利要求1所述的基于图神经网络的移动网络恶意流量识别方法，其特征在于，所述步骤2中丢弃每个预处理后的原始数据中的src ip，dst ip，src port，dst port四个特征，然后再丢弃“flow id”特征和“timestamp”特征，然后将剩余除去label特...

【专利技术属性】
技术研发人员：黑新宏，王欣，姬文江，朱磊，邱原，高苗，
申请(专利权)人：西安理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人