一种基于多模型决策的APP流量识别和去噪方法技术

技术编号:38997767 阅读:15 留言:0更新日期:2023-10-07 10:29
本发明专利技术提出一种基于多模型决策的APP流量识别和去噪方法,对网络流中的流量进行分流后,提取流数据的特征向量,作为多模型的输入,由多模型决策输出APP识别结果或识别为噪声丢弃该结果。本发明专利技术相对于传统的端口匹配和深度包检测,通用性较强,实现简单,支持目前大多数的APP识别,并能较精确地去除网络流中的噪声造成的干扰。同时,本发明专利技术的多模型过滤算法,不局限于APP流量识别,还可经过修改后应用于其他领域。他领域。他领域。

【技术实现步骤摘要】
一种基于多模型决策的APP流量识别和去噪方法


[0001]本专利技术属于网络
,具体涉及APP流量识别和去噪方法。

技术介绍

[0002]随着现代计算机和网络信息技术的飞速发展,网络在我们的日常生活中已经变得无处不在,APP数量的爆炸性增长也带来了网络流量的大幅度增长,有效保证网络监控及管理和提高网络服务的质量的需求也和识别APP流量紧密联系在一起。基于端口的识别方案和基于DPI(Deep Packet Inspection)的APP流量识别方案通过匹配特征库识别APP,识别精度较高,但是通用性较差,随着APP更多地使用随机端口号、APP本身的不断进化和加密流量的产生,上述方案已经不适用于如今的网络环境。
[0003]基于上述现状,研究人员开始将机器学习算法引入APP流量分类,并取得了一些有效的进展。基于机器学习的APP流量分类算法首先通过人工分析APP流量的特性以提取流量特征,通过已知的训练数据训练出模型,模型通过验证优化后进入测试阶段,测试阶段提取未知流量的相同特征输入模型后进行预测,生成APP的识别结果。在文献“G.Aceto,D.Ciuonzo,A.Montieri and A.Pescape.:"Traffic Classification of Mobile Apps through Multi

Classification,"GLOBECOM 2017

2017 IEEE Global Communications Conference,2017,pp.1

6,doi:10.1109/GLOCOM.2017.8254059.”中,作者将机器学习算法应用于APP流的识别,通过提取网络流量的统计特征,有效精准地识别了APP流量。文献“Zhen,Labe,et al.:"Mobile app traffic flow feature extraction and selection for improving classification robustness

ScienceDirect."Journal of Network and Computer Applications 125(2019):190

208.”通过构建不同的特征集进行对比实验,并利用特征选择算法提高了分类器的鲁棒性,分类结果也优于传统识别方法。
[0004]而机器学习算法和APP流量分类的结合虽然能解决不少传统方法存在的问题,但是现有的APP流量识别方案相对注重对纯净流量的精确识别,缺少对于如今复杂的网络环境下去除噪声流量的解决方案。网络噪声数据的来源也分为多种,包括APP的推送、APP之间的服务调用和系统服务的调用等,也可能包括网络传输中产生的差错,这些噪声流对于一些网络服务是无用甚至是有害的,也影响了对于数据流来源的精确识别。基于上述现状,在流量分析中有效去除网络流中的噪声也是至关重要的。

技术实现思路

[0005]本专利技术提出基于多模型决策的APP流量识别和去噪方法,能够在精确识别APP的同时,有效地去除现实网络环境下的噪声流量。具体来说,包括如下步骤:
[0006]步骤1:收集网络流量,去除非主要IP子网对应的数据,根据APP名称给网络流生成标签集合Y;
[0007]步骤2:提取网络流特征,网络流特征为从网络流中提取的统计特性,针对正向和反向的报文,提取报文长度的统计特性和报文长度与时间相关的特性,预处理后构成流的
特征向量集合X;
[0008]步骤3:将Y和X中的流特征和标签一一对应后,输入多个分类器进行训练,根据模型未参与训练的测试集上的分类精度调整各个模型的参数,生成多模型决策组{M1,M2,......,M
n
};
[0009]步骤4:将给定网络流经过步骤2的处理后输入步骤3中训练好的多模型决策组,生成分类结果{A1,A2,......,A
n
};
[0010]步骤5:根据步骤4中得到的分类结果进行决策,决定输出该APP结果或认为其是噪声即丢弃该结果。
[0011]进一步地,步骤1、步骤2和步骤4中定义的网络流均由经过四元组{源IP地址,目的IP地址,源端口,目的端口}分流后的TCP报文组成。
[0012]进一步地,步骤2中的网络流特征包括各个报文长度的统计特性(最小值、最大值、均值、方差和标准差等)和时间特性(流的持续时间和报文的时间间隔等)。
[0013]进一步得,步骤5中所述的决策方案取决于,在步骤3中所训练的N个模型产生了分类结果集合{A1,A2,......,A
n
},若至少K个分类器产生了相同的分类结果,则认为分类器集合正确识别了该APP的网络流,输出该APP结果;若对分类结果集合去重后产生的集合中,元素数量C≥K,则认为该网络流为噪声流,丢弃该结果。
[0014]本专利技术与现有的APP流量识别方法相比,优势在于:(1)特征提取较为容易实现,使用的机器学习算法相对简单;(2)方法的通用性较强,目前市面上使用率较高的APP都能采用该方法进行识别;(3)采用多模型决策,既能够精准识别出APP流量,也能够有效地排除网络流量中存在的噪声对APP流量识别造成的干扰。
附图说明
[0015]图1是本专利技术提出的APP流量识别和去噪方法的流程图。
[0016]图2是本专利技术提出的多模型决策方法的流程图。
具体实施方式
[0017]本专利技术提出基于多模型决策的APP流量识别和去噪方法的流程图如图1所示,其步骤包括:
[0018]步骤1:收集网络流量,去除非主要IP子网对应的数据,根据APP名称给网络流生成标签集合Y;
[0019]步骤2:提取网络流特征,网络流特征为从网络流中提取的统计特性,针对正向和反向的报文,提取报文长度的统计特性和报文长度与时间相关的特性,预处理后构成流的特征向量集合X;
[0020]步骤3:将Y和X中的流特征和标签一一对应后,输入多个分类器进行训练,根据模型未参与训练的测试集上的分类精度调整各个模型的参数,生成多模型决策组{M1,M2,......,M
n
};
[0021]步骤4:将给定网络流经过步骤2的处理后输入步骤3中训练好的多模型决策组,生成分类结果{A1,A2,......,A
n
};
[0022]步骤5:根据步骤4中得到的分类结果进行决策,决定输出该APP结果或认为其是噪
声即丢弃该结果。
[0023]进一步地,步骤1、步骤2和步骤4中定义的网络流均由经过四元组{源IP地址,目的IP地址,源端口,目的端口}分流后的TCP报文组成。
[0024]进一步地,步骤2中的网络流特征包括各个报文长度的统计特性(最小值、最大值、均值、方差和标准差等)和时间特性(流的持续时间和报文的时间间隔等)。
[0025]进一步得,步骤5中所述的决策本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模型决策的APP流量识别和去噪方法,包括如下步骤:步骤1:收集网络流量,去除非主要IP子网对应的数据,根据APP名称给网络流生成标签集合Y;步骤2:提取网络流特征,网络流特征为从网络流中提取的统计特性,针对正向和反向的报文,提取报文长度的统计特性和报文长度与时间相关的特性,预处理后构成流的特征向量集合X;步骤3:将Y和X中的流特征和标签一一对应后,输入多个分类器进行训练,根据测试集上的分类精度调整各个模型的参数,生成多模型决策组{M1,M2,......,M
n
};步骤4:将给定网络流经过步骤2的处理后输入步骤3中训练好的多模型决策组,生成分类结果{A1,A2,......,A
n
};步骤5:根据步骤4中得到的分类结果进行决策,决定输出该APP结果或认为其是噪声即丢弃该结果。2.如权利要求1所述的基于多模型决策的APP流量识别和去噪方法,其特征在于,步骤1、步骤2和步骤4中定义的网络流均由经过四元组{源IP地址...

【专利技术属性】
技术研发人员:满嘉睿伏长虹王闯
申请(专利权)人:海优南京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1