The invention proposes a mobile application traffic identification method for non encrypted traffic. Methods Combining vector space mapping with random forest classifier, including pretreatment stage, to pretreat traffic load; mapping traffic load to vector space in the modeling stage of random forest classifier, using traffic training set to establish random forest model; classification stage, traffic to be identified through random forest model Type classification. Common non-encrypted traffic identification methods are limited to finding feature strings of fixed or variable length, which takes a lot of energy. The invention introduces a method in the field of Natural Language Processing. Transforming non encrypted load into vector can overcome the complexity of finding characteristic characters. The invention can be applied to the application type recognition of non encrypted traffic, and has high recognition accuracy.
【技术实现步骤摘要】
基于负载映射与随机森林的非加密流量识别方法
本专利技术涉及流量分类与识别
,尤其涉及一种非加密移动应用流量识别方法。
技术介绍
网络流量识别在网络管理中处于十分重要的位置,是网络监管、带宽计费、QoS等多方面的基础。近几年,移动设备的数量呈现爆炸式增长,越来越深入到人们的生活中。在这些设备上,人们下载安装应用程序,这些应用程序产生的流量称之为移动应用流量。这些流量增长得十分迅速,并且包含了网络环境中的重要信息,因此对这些流量进行分析变得十分有意义,而流量识别作为流量分析的基础,吸引了学术界的许多目光。移动应用程序大多使用HTTP/HTTPS等协议,目前流量识别的方式主要有3种:基于端口的识别方法、基于机器学习的识别方法、基于数据包负载的识别方法(DPI)。基于端口的识别方法是将一些熟知端口作为识别规则,如80端口对应HTTP协议,53号端口对应DNS协议。但由于大多数移动应用都采用HTTP/HTTPS协议,流量端口基本固定为80或443,基于端口识别的方案不能很好地识别移动应用流量。基于机器学习的识别方法通常是先按照五元组的方式提取出数据流,所谓数据流就是指在一定时间间隔内报文的集合,这些报文有着相同的源IP、目的IP、源端口、目的端口和协议。而后可以通过提取流特征,如数据包到达间隔、数据包大小等,完成数据包到特征空间的映射,进而可以建立如贝叶斯、SVM、决策树等分类器以进行分类。或是采用K-Means、DBSCAN等无监督方法进行聚类,预测类别。但同样是由于移动应用大都采用HTTP/HTTPS协议,流特征会较为相近,常用的流特征将近250个,如何选 ...
【技术保护点】
1.一种非加密移动应用流量识别方法,具体包括:方法基于随机森林分类器,包括预处理阶段、随机森林分类器建模阶段和预测阶段;预处理阶段,负责提取数据包负载中的有用信息,以降低训练和预测时的复杂度,且能降低噪声;随机森林分类器建模阶段,将负载映射为向量空间中的TFIDF向量,以此进行随机森林分类器的训练;预测阶段,对未知标签的流量,提取出数据包负载,经过预处理阶段,提取出有用信息,同样经过负载映射到向量空间,将该向量输入到分类器模型中,得到预测标签。
【技术特征摘要】
1.一种非加密移动应用流量识别方法,具体包括:方法基于随机森林分类器,包括预处理阶段、随机森林分类器建模阶段和预测阶段;预处理阶段,负责提取数据包负载中的有用信息,以降低训练和预测时的复杂度,且能降低噪声;随机森林分类器建模阶段,将负载映射为向量空间中的TFIDF向量,以此进行随机森林分类器的训练;预测阶段,对未知标签的流量,提取出数据包负载,经过预处理阶段,提取出有用信息,同样经过负载映射到向量空间,将该向量输入到分类器模型中,得到预测标签。2.根据权利要求说明1所述方法,其特征在于,用于训练与测试的HTTP流量负载,仅截取”\r\n\r\n”之前的内容,删去无用的数据部分。3.根据权利要求说明1所述方法,其特征在于,对流量负载依照空格、斜杠等分隔符进行分词,引入自然语言处理领域中的方法,计算单词的逆文档频率(TFIDF)以映射到向量空间,以TFIDF值衡量单词的重要程度,即建立的分类特征是重要单词的TFIDF值,训练流量样本集可被视为向量集合。4.根据权利要求说明1所述方法,其特征在于,对所有单词的TFIDF值进行从高到低的排序,选择重要度高的单词建立词袋模型,将重要度低的单词从词袋中删去。5.根据权利要求说明1所述方法,其特征在于,对训练向量集合,随机抽样生成数据...
【专利技术属性】
技术研发人员:邹学强,张玉,包秀国,金宇菲,张建忠,
申请(专利权)人:南开大学,国家计算机网络与信息安全管理中心,
类型:发明
国别省市:天津,12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。