基于会话长度概率分布的智能设备应用程序识别方法技术

技术编号:23084834 阅读:31 留言:0更新日期:2020-01-11 01:04
本发明专利技术提出了一种基于TCP会话长度概率分布和随机森林算法的智能设备应用程序识别方法,用于实现在训练集和测试集采集自不同设备的情况下识别准确率的提升。实现步骤为:获取应用程序App

An application program recognition method for intelligent devices based on the probability distribution of session length

【技术实现步骤摘要】
基于会话长度概率分布的智能设备应用程序识别方法
本专利技术属于无线通信
,涉及一种智能设备应用程序识别方法,具体涉及一种基于会话长度概率分布和随机森林算法的智能设备应用程序识别方法。
技术介绍
应用程序识别,是通过提取应用程序独特的特征来对目标设备上存在的应用程序种类进行识别的一种技术。该技术可分为:1)个人电脑中的应用识别;2)网站识别;3)智能设备中的应用识别。近年来,随着移动智能设备在世界范围内的逐渐普及,移动智能设备上的应用程序信息开始具备越来越高的价值。因此,移动智能设备中的应用识别研究开始得到更多的关注。连接进入无线局域网的移动智能设备,其同远程服务器的通信都将通过架设该无线局域网的路由器。因此,获取移动智能设备的流量数据,并从中提取出不同应用程序的特征,便成为了一种移动智能设备应用程序识别的可行方法。目前对于智能设备应用识别方法的研究,主要基于对智能设备产生的数据包的分析。其中有两种分析方法的使用较为广泛,一种是对数据包有效载荷的内容进行分析,一种是对数据包长度等有效载荷之外的属性进行分析。前一种方法仅能对非本文档来自技高网...

【技术保护点】
1.一种基于TCP会话长度概率分布和随机森林算法的智能设备应用程序识别方法,其特征在于,包括以下步骤:/n(1)获取应用程序App

【技术特征摘要】
1.一种基于TCP会话长度概率分布和随机森林算法的智能设备应用程序识别方法,其特征在于,包括以下步骤:
(1)获取应用程序Appj在智能设备Si上产生的流量数据集合Tij:
将安装有应用程序Appj的移动设备Si与无线局域网W连接,并从W的路由器处截取Si上安装的Appj所产生的包括多个TCP协议数据包和HTTP协议数据包的流量数据Tij,Si表示第i个移动设备,i≥1,Appj表示第j个应用程序,j≥1;
(2)对流量数据Tij进行筛选:
剔除流量数据集合Tij中包含“TCPAnalysisFlags”字段的TCP协议数据包和HTTP协议数据包,得到由不包含“TCPAnalysisFlags”字段的TCP协议数据包和HTTP协议数据包组成的数据包集合T'ij;
(3)获取会话样本集集合Gij:
将T'ij中属于同一个完整的TCP会话中的所有数据包作为一个会话样本,得到由多个会话样本组成的TCP会话集合sessij,并从sessij中有放回地随机抽取m次会话样本,将每次抽取的n个会话样本组成会话样本集,抽取m次会话样本所获得的会话样本集组成会话样本集集合Gij:
Gij={Gij1,Gij2,...,Gijk,...,Gijm}
其中Gijk为第k次抽取会话样本所获得的会话样本集,m≥1,n≥1,m≥k≥1;
(4)获取训练集集合Vtrain和测试集集合Vtest:
(4a)设置长度区间集合local:
local={local1,local2,...,locale,...,local25}
其中,locale表示第e个长度区间[2e-1,2e),25≥e≥1;
(4b)获取会话样本集Gijk中n个会话样本各自的长度值l,并计算满足l∈locale的会话样本的数量占Gijk中会话样本总数n的百分比然后按照e由小到大的顺序将所有排列成特征向量Vijk;
(4c)将Gij中m个会话样本集对应的特征向量组成特征向量集Vij:
Vij={Vij1,Vij2,...,Vi...

【专利技术属性】
技术研发人员:杨超任秋凝苏锐丹郑昱王岁兴马建峰郭刚刘丙楠
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1