一种基于多任务学习的网络加密流量识别方法技术

技术编号:34081018 阅读:20 留言:0更新日期:2022-07-11 18:52
本发明专利技术属于网络流量数据识别技术领域,具体涉及一种基于多任务学习的网络加密流量识别方法,包括如下步骤:流量数据采集;数据预处理;建立多任务特征选择算法;通过分布优化算法对多任务特征选择算法进行求解;使用多任务特征选择算法进行训练,获得稀疏的特征集合以及多任务学习模型,通过多任务学习模型对多个任务进行识别,得到预测的识别结果。本发明专利技术提供的方法能够捕捉任务之间的竞争关系,同时从稀疏结构中删除任务中常见的不重要特征;通过同时识别任务的稀疏结构和竞争结构来显著提高学习性能。高学习性能。

【技术实现步骤摘要】
一种基于多任务学习的网络加密流量识别方法


[0001]本专利技术属于网络流量数据识别
,具体涉及一种基于多任务学习的网络加密流量识别方法。

技术介绍

[0002]随着大众网络安全意识的稳步提升,对于数据保护的意识也愈加强烈,网络加密流量的识别问题也愈加引起人们的重视。网络加密流量的有效识别,对保护用户信息、监管非法数据、检测网络攻击、维护网络安全有着重要意义。在面临日益严重的网络安全威胁和攻击时,需要提出有效的识别方法。实现加密流量精细化管理,保障计算机和终端设备安全运行,维护健康绿色的网络环境。
[0003]网络流量数据一个突出的特点就是其随时间快速演化,存在概念漂移的现象。实际应用中,对高维网络流量特征使用稀疏学习的方法提取关键特征,一方面可以减少需要提取的特征数量,提高运行效率,另一方面也可以去掉冗余特征,提高识别的效率与准确率。但由于网络流量的演化特性,在一个网络流上的特征选择结果,推广到其他时间或空间的网络流时,会存在一定的局限。多任务学习方法通过任务间的信息共享,可以有效解决这一问题。
[0004]大多数现有的多任务学习方法或是识别任务之间的负相关(竞争结构)提高学习性能,或是排除常见的不重要特征(稀疏结构)来提高性能,但这些方法都没有在多任务学习设置中同时学习这两种结构。
[0005]为了克服这个限制,本专利技术提出了一种基于多任务学习的网络加密流量识别方法。

技术实现思路

[0006]为了解决上述技术问题,本专利技术提供一种基于多任务学习的网络加密流量识别方法,能够捕捉任务之间的竞争关系,同时从稀疏结构中删除任务中常见的不重要特征,通过同时识别任务的稀疏结构和竞争结构来显著提高学习性能。
[0007]本专利技术是这样实现的,提供一种基于多任务学习的网络加密流量识别方法,包括如下步骤:1)流量数据采集;2)数据预处理;3)建立多任务特征选择算法;4)通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解;5)使用步骤3)和步骤4)建立的多任务特征选择算法进行训练,获得稀疏的特征集合以及多任务学习模型,通过多任务学习模型对多个任务进行识别,得到预测的识别结果。
[0008]优选的,步骤1)中,流量数据的采集包括如下步骤:101)收集公共数据集;
102)通过数据包采集工具,采集日常真实使用环境下的应用网络流量数据包或运营商的原始流量数据包。
[0009]进一步优选,步骤2)中,将步骤1)采集的流量数据包存储为Pcap格式文件,对数据包的预处理包括如下步骤:201)删除数据链头文件;202)修改传输头数据;203)对数据包应用层为零的数据包进行过滤;204)数据包斩断与填充。
[0010]进一步优选,步骤3)中,多任务特征选择算法的建立包括如下步骤:301)假设有个学习任务,对应的训练集为,其中,即为具有个样本和d个特征的第k个任务的样本矩阵,而或是回归或分类模型的目标向量,令,其中和为模型系数,则多任务学习问题可以表示为:(1)其中,是损失函数,表示为回归模型的最小二乘损失:(2)或二元分类模型的逻辑损失:(3)是一个调整参数,是一个采用不同形式的正则化项;302)将系数矩阵W分解为两个矩阵P和Q,使得W表示为P和Q的Hadamard乘积:对矩阵P和Q使用不同的正则化项来利用任务之间的关系,对P使用L
1/2
正则化来捕获相同特征的任务之间的竞争关系,而对Q使用或正则化以在特征级别实现块稀疏性;
303)根据步骤301)和步骤302),多任务特征选择算法建模为:多任务特征选择算法建模为:(4)其中,第一个正则化项是唯一的L
1/2
正则化项,第二个是正则化项;、是调谐参数,第二个正则化项对任务施加逐块惩罚以选择共同特征,使得所有任务的系数对于同一特征将全为零或非零,因此,第二个正则化项在特征级别实现稀疏性,如果W的第kj个元素非零,则P和Q的第kj个元素都非零,同时,如果P或Q的第kj个元素为零,则W的kj个元素将为零。
[0011]进一步优选,步骤4)中,通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解,包括如下步骤:算法迭代优化P和Q中的一个,同时修复另一个,并采用近似方法来更新每个组件,具体来说,当算法固定Q的情况下优化P时,为每个任务考虑以下伪训练数据集:,得到伪训练数据集后,对于固定矩阵Q,多任务特征选择算法模型(4)可以重新表示为:(5)其中对应于多任务学习损失函数,因此,优化的多任务特征选择算法模型(5)可以通过近端梯度下降优化方法来解决,基于每次迭代中的以下二次近似:(6)其中表示通过线性搜索估计的步长,对应于迭代时对的估计,进一步,(6)式可改写为:(7)
其中,。
[0012]进一步优选,多任务特征选择算法模型(4)的交替优化具体步骤见算法Ⅰ和算法Ⅱ,算法Ⅰ为分步优化算法,算法Ⅱ为如何在每一步优化中通过近端梯度算法计算P,估计Q的过程与算法Ⅱ同理:算法Ⅰ:1:输入:X、Y、、;2:初始化:;3:重复:;4:步骤Ⅰ,即估计P:对于每个任务生成基于Q的伪训练数据集:5:;6:并使用固定优化,如下所示:7:;8:步骤Ⅱ,即求解Q:根据每个任务生成估计P的伪训练数据集:9:;10:并使用固定的 优化,如下所示:11: ;12:步骤Ⅲ:设置;13:直到W收敛;14:输出:;算法Ⅱ:1:输入:Z、Y、、、;2:初始化:;3:重复:
4:计算的梯度,;5:如果如果如果;6:then:中断并输出;7:else: ,其中是用户定义的常数;8:输出:。
[0013]与现有技术相比,本专利技术的优点在于:本专利技术采用基于多任务学习的网络加密流量识别方法,在网络加密流量识别中,将不同加密协议的网络加密流量识别看作不同的任务,通过多任务学习对多个任务的联合特征进行学习,识别网络加密流量。能够捕捉任务之间的竞争关系,同时从稀疏结构中删除任务中常见的不重要特征;通过同时识别任务的稀疏结构和竞争结构来显著提高学习性能。
具体实施方式
[0014]下面结合具体的实施方案,对本专利技术进行进一步的解释说明,但并不用于限制本专利技术的保护范围。
[0015]本专利技术提供一种基于多任务学习的网络加密流量识别方法,包括如下步骤:1)流量数据采集;流量数据的采集包括如下步骤:101)收集公共数据集,如ISCX2012、Moore、USTC

TFC2016和IMTD17等;102)通过数据包采集工具,采集日常真实使用环境下的应用网络流量数据包或运营商的原始流量数据包。
[0016]2)数据预处理;将步骤1)采集的流量数据包存储为Pcap格式文件,该格式的文件除了流量数据外,还有该文件协议额外添加的其他信息,而这些信息有可能干扰分类结果。因此需要对该文件的格式进行解析,提取出有用的数据部分。具体的,对数据包的预处理包括如下步骤:201)删除数据链头文件;202)修改传输头数据;203)对数据包应用层为零的数据包进行过滤;204)数据包斩断与填充。
[0017]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多任务学习的网络加密流量识别方法,其特征在于,包括如下步骤:1)流量数据采集;2)数据预处理;3)建立多任务特征选择算法;4)通过分布优化算法对步骤3)建立的多任务特征选择算法进行求解;5)使用步骤3)和步骤4)建立的多任务特征选择算法进行训练,获得稀疏的特征集合以及多任务学习模型,通过多任务学习模型对多个任务进行识别,得到预测的识别结果。2.根据权利要求1所述的基于多任务学习的网络加密流量识别方法,其特征在于,步骤1)中,流量数据的采集包括如下步骤:101)收集公共数据集;102)通过数据包采集工具,采集日常真实使用环境下的应用网络流量数据包或运营商的原始流量数据包。3.根据权利要求1所述的基于多任务学习的网络加密流量识别方法,其特征在于,步骤2)中,将步骤1)采集的流量数据包存储为Pcap格式文件,对数据包的预处理包括如下步骤:201)删除数据链头文件;202)修改传输头数据;203)对数据包应用层为零的数据包进行过滤;204)数据包斩断与填充。4.根据权利要求1所述的基于多任务学习的网络加密流量识别方法,其特征在于,步骤3)中,多任务特征选择算法的建立包括如下步骤:301)假设有个学习任务,对应的训练集为,其中,即为具有个样本和d个特征的第k个任务的样本矩阵,而或是回归或分类模型的目标向量,令,其中和为模型系数,则多任务学习问题可以表示为:(1)其中,是损失函数,表示为回归模型的最小二乘损失:(2)或二元分类模型的逻辑损失:
(3)是一个调整参数,是一个采用不同形式的正则化项;302)将系数矩阵W分解为两个矩阵P和Q,使得W表示为P和Q的Hadamard乘积:对矩阵P和Q使用不同的正则化项来利用任务之间的关系,对P使用L
1/2
正则化来捕获相同特征的任务之间的竞争关系,而对Q使用或正则化以在特征级别实现块稀疏性;303)根据步骤301)和步骤302),多任务特征选择算法建模为:多任务特征选择算法建模为:(4)其中,第一个正则化项是唯一的L...

【专利技术属性】
技术研发人员:杨润峰胡文友曲武胡永亮
申请(专利权)人:金睛云华沈阳科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1