一种基于深度学习的去中心化应用流量识别方法和系统技术方案

技术编号:37876035 阅读:11 留言:0更新日期:2023-06-15 21:04
本发明专利技术涉及一种基于深度学习的去中心化应用流量识别方法和系统。该方法包括:采集去中心化应用使用过程中的网络流量数据;对采集的网络流量数据进行预处理,所述预处理包括流量过滤,并将过滤后的网络流量数据转化为图片形式;利用图片形式的网络流量数据训练神经网络模型;利用训练完成的神经网络模型对去中心化应用的实际网络流量进行分类识别。本发明专利技术将网络流量分类问题转化为图像分类问题,利用卷积神经网络在图像识别领域强大的学习能力训练出图流量分类器,能够显著提高分类器的测试准确率,有助于网络服务提供商与网络的管理者优化网络环境。优化网络环境。优化网络环境。

【技术实现步骤摘要】
一种基于深度学习的去中心化应用流量识别方法和系统


[0001]本专利技术涉及区块链智能合约安全
,具体涉及一种基于深度学习的去中心化应用流量识别方法和系统。

技术介绍

[0002]随着数字加密货币的快速发展,区块链技术逐渐被大众所熟悉,引起政界、商界、科技行业的普遍关注,区块链的相关研究与应用的数量与日俱增。越来越多的去中心化应用(Decentralized Applications,DApps)部署在区块链上,以实现匿名通信与数据共享。这些应用程序往往采用SSL/TLS(Secure Sockets Layer/Transport Layer Security)进行数据的加密传输保证流量载荷的安全性,且基于同一区块链平台的去中心化应用通常具有相似的SSL/TLS架构,以往传统的流量识别方式难以在新情景下得到较好的分类结果,需要探索更具针对性的分类方法。识别DApp流量可帮助互联网服务提供商分析DApp的用户数量、使用习惯,有助于DApp市场研究。网络管理员也可根据流量分类的结果优化网络环境。
[0003]针对流量识别问题学界与工业界提出了一系列的方法,这些方法主要可分为端口识别、深度包检测、行为模式识别、人工智能赋能识别,一般将前三种识别方式称为传统识别方式。端口识别根据数据包传输层中的端口号区分应用协议,进而识别具体应用。只需要在基础网络设备上配置规则即可,无需其他软硬件,且识别速度非常快,准确率高。但随着互联网规模的不断扩大,不少应用开始采用动态端口技术进行数据传输,端口识别技术的准确率大幅下降,已无法适应当前的网络环境。深度包检测识别技术深入数据包的载荷进行检测,提取数据包内容并进行模式匹配,不受五元组的变化限制且识别率相对较高,但无法对加密流量进行识别。此外,在深入数据包获取载荷进行匹配时需要消耗大量的计算资源,增加了网络设备的负担。行为模式识别技术不再根据单个数据包的具体内容信息进行分类,而是基于整个应用的行为进行分类。同一应用在面对不同主机目标传输数据流时会积累足够的信息(如周期性)用于消除主机间的差异,进而识别应用。人工智能赋能的识别技术是将人工智能技术引入流量的分类过程中,用机器学习算法学习网络流量中一些带有特征的信息,提高了分类的准确率与时效性。与传统分类方法相比,目前网络环境下人工智能流量分类的准确率与快速性都有较大提高。

技术实现思路

[0004]为了克服上述现有技术的不足,本专利技术提供一种基于深度学习的去中心化应用流量识别方法和系统,用于识别不同种类去中心化应用产生的流量,为网络优化提供参考。
[0005]为达到上述目的,本专利技术提供如下技术方案:
[0006]一种基于深度学习的去中心化应用流量识别方法,包括以下步骤:
[0007]采集去中心化应用使用过程中的网络流量数据;
[0008]对采集的网络流量数据进行预处理,所述预处理包括流量过滤,并将过滤后的网络流量数据转化为图片形式;
[0009]利用图片形式的网络流量数据训练神经网络模型;
[0010]利用训练完成的神经网络模型对去中心化应用的实际网络流量进行分类识别。
[0011]进一步地,所述流量过滤包括:域过滤、包过滤以及流过滤;所述域过滤的目的是过滤掉与目标应用无关的流量;所述包过滤的目的是滤除没有带来任何有助于描述流量特征的数据包;所述流过滤的目的是分割数据流,将目标应用的流量按五元组与时间间隔划分出流,其中流表示在单个TCP会话期间两个对等方之间交换的TCP数据包的时序序列。
[0012]进一步地,所述域过滤包括:基于上文背景流量分析的结果过滤掉局域网内的数据包以及本机产生的背景流量;利用会话统计信息,结合网络信息、会话时长、发包数量对IP地址进行二次过滤,目的是筛除无关流以及数据量较小的相关流,保留行为特征更为明显的数据量较大的相关流。
[0013]进一步地,所述流过滤中划分流的时间阈值选取为4.5秒。
[0014]进一步地,所述将过滤后的网络流量数据转化为图片形式,包括:每个流中用于构造图片的包数设置为25,每个包截取前40个字节的数据,包含网络层和传输层的报头信息并摒除加密后的负载信息;包数不足的流使用黑色像素点填充。
[0015]进一步地,所述神经网络模型为卷积神经网络模型;所述卷积神经网络模型包括:
[0016]输入层,用于读取经过预处理的图片数据,输入为1
×
25
×
320像素的单通道图像数据;
[0017]卷积层C1,使用大小为3的卷积核,滑动步长的取值设为1,输出5通道数据,图像经过卷积后输出张量尺寸变为5
×
23
×
318;一次卷积实现后,将输出张量通过ReLU激活函数引入非线性因素并提高学习速度;
[0018]池化层P1,选取2
×
2的池化核,滑动步长取值为2,采用最大池化方式压缩特征,输出张量尺寸为5
×
11
×
159。
[0019]卷积层C2,池化层P1的输出张量作为卷积层C2的输入张量,卷积层C2的下采样尺寸为3
×
3,滑动步长为1,包含10个卷积核,卷积后张量尺寸变为10
×9×
157,再次将卷积结果通过ReLU激活函数;
[0020]池化层P2,与池化层P1结构相同,池化核尺寸为2
×
2,步长设置为2,采用最大池化方式,输出张量尺寸为10
×4×
78;
[0021]全连接层Fc1,包含120个神经元,将池化层的输出张量中3120个元素映射到120维的特征空间中,再经过ReLU函数;
[0022]全连接层Fc2,包含84个神经元,将120维特征映射到84维,再接ReLU函数;
[0023]输出层Output,其目的是将隐层中的高维特征映射到标签空间中,该输出层包含9个神经元,得到9维的特征,利用Softmax函数得到对应样本映射到每个标签的概率。
[0024]进一步地,所述卷积神经网络模型的超参数包括Epoch、Batch Size、Learning Rate、Optimizer和激活函数;在训练阶段分别改变每个超参数,通过估计超参数的梯度方向来决定增加或减少超参数的大小,完成这一过程后选择所有超参数的最佳的结果进行组合;使用准确度作为评估超参数梯度方向的性能指标,准确度定义为所有正确分类的样本占总样本数的比例。
[0025]一种基于深度学习的去中心化应用流量识别系统,其包括:
[0026]流量数据采集模块,用于采集去中心化应用使用过程中的网络流量数据;
[0027]流量数据预处理模块,用于对采集的网络流量数据进行预处理,所述预处理包括流量过滤,并将过滤后的网络流量数据转化为图片形式;
[0028]模型训练模块,用于利用图片形式的网络流量数据训练神经网络模型;
[0029]流量识别模块,用于利用训练完成的神经网络模型对去中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的去中心化应用流量识别方法,其特征在于,包括以下步骤:采集去中心化应用使用过程中的网络流量数据;对采集的网络流量数据进行预处理,所述预处理包括流量过滤,并将过滤后的网络流量数据转化为图片形式;利用图片形式的网络流量数据训练神经网络模型;利用训练完成的神经网络模型对去中心化应用的实际网络流量进行分类识别。2.根据权利要求1所述的方法,其特征在于,所述流量过滤包括:域过滤、包过滤以及流过滤;所述域过滤的目的是过滤掉与目标应用无关的流量;所述包过滤的目的是滤除没有带来任何有助于描述流量特征的数据包;所述流过滤的目的是分割数据流,将目标应用的流量按五元组与时间间隔划分出流,其中流表示在单个TCP会话期间两个对等方之间交换的TCP数据包的时序序列。3.根据权利要求2所述的方法,其特征在于,所述域过滤包括:基于上文背景流量分析的结果过滤掉局域网内的数据包以及本机产生的背景流量;利用会话统计信息,结合网络信息、会话时长、发包数量对IP地址进行二次过滤,目的是筛除无关流以及数据量较小的相关流,保留行为特征更为明显的数据量较大的相关流。4.根据权利要求2所述的方法,其特征在于,所述流过滤中划分流的时间阈值选取为4.5秒。5.根据权利要求1所述的方法,其特征在于,所述将过滤后的网络流量数据转化为图片形式,包括:每个流中用于构造图片的包数设置为25,每个包截取前40个字节的数据,包含网络层和传输层的报头信息并摒除加密后的负载信息;包数不足的流使用黑色像素点填充。6.根据权利要求1所述的方法,其特征在于,所述神经网络模型为卷积神经网络模型;所述卷积神经网络模型包括:输入层,用于读取经过预处理的图片数据,输入为1
×
25
×
320像素的单通道图像数据;卷积层C1,使用大小为3的卷积核,滑动步长的取值设为1,输出5通道数据,图像经过卷积后输出张量尺寸变为5
×
23
×
318;一次卷积实现后,将输出张量通过ReLU激活函数引入非线性因素并提高学习速度;池化层P1,选取2
×
2的池化核,滑动步长取值为2,采用最大池化方式压缩特征,输出张量尺寸为5
×
11
×<...

【专利技术属性】
技术研发人员:卢昊洋章睿郑丽娟李兆轩
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1