监测终端流量的方法以及系统技术方案

技术编号:20014166 阅读:33 留言:0更新日期:2019-01-05 22:26
本发明专利技术公开了一种监测终端流量的方法以及系统,该方法包括:S1,根据特征向量采用ID3算法建立决策树模型;S2,根据决策树模型的规则对终端的流量数据进行分类。上述技术方案通过采用非侵入式获取终端流量数据,根据特征向量采用ID3算法建立决策树模型,再根据此决策树规则对流量数据进行分类。实验结果表明:该方法对终端流量类型的识别准确率在92%以上。

Method and System for Monitoring Terminal Flow

The invention discloses a method and system for monitoring terminal traffic. The method includes: S1, establishing decision tree model by ID3 algorithm based on eigenvector, S2, classifying terminal traffic data according to the rules of decision tree model. The above technical scheme obtains terminal traffic data by non-intrusive method, establishes decision tree model based on eigenvector and ID3 algorithm, and classifies traffic data according to this decision tree rule. The experimental results show that the recognition accuracy of this method for terminal traffic type is over 92%.

【技术实现步骤摘要】
监测终端流量的方法以及系统
本专利技术涉及计算机
,具体来说,涉及一种监测终端流量的方法以及系统。
技术介绍
目前对终端应用的安全性监测大多是侵入式监测,例如,终端安装监测客户端上传应用特征码到服务器端分析,直接对应用安装包分析,对终端应用程序提取权限信息进行分析等。但是,侵入式监测具有一定的局限性,例如,对终端中应用的流量使用情况难以全方位监测,并且必须要在被监测终端中安装客户端。针对现有终端中不良软件难以监测和识别的问题,目前尚未提出有效的解决方案。
技术实现思路
针对相关技术终端中不良软件难以监测和识别的问题,本专利技术提供了一种监测终端流量的方法以及系统。本专利技术的技术方案是这样实现的:根据本专利技术的一个方面,提供了一种监测终端流量的方法,包括:S1,根据特征向量采用ID3算法建立决策树模型;S2,根据决策树模型的规则对终端的流量数据进行分类。根据本专利技术的实施例,步骤S1包括:得到多个维度的特征向量与最终决策的映射关系;其中,通过熵来判别每个维度的向量对最终决策的影响,根据得到的熵得到每个维度的向量的信息增益。根据本专利技术的实施例,步骤S1还包括:根据信息增益建立决策树模型。根据本专利技术的实施例,步骤S1还包括:在决策树模型的各个分支节点处,通过信息增益来选择特征向量。根据本专利技术的实施例,特征包括二级链接数特征、访问时间频次特征、上下行流量特征和总数据流量特征之中的任意一种或多种。根据本专利技术的实施例,在步骤S1之前还包括:获取终端产生的流量数据;对流量数据进行整理形成建立决策树模型所需的特征向量。根据本专利技术的另一方面,提供了一种监测终端流量的系统,包括:模型建立模块,用于根据特征向量采用ID3算法建立决策树模型;分类模块,用于根据决策树模型对终端的流量数据进行分类。本专利技术通过采用非侵入式获取终端流量数据,根据特征向量采用ID3算法建立决策树模型,再根据此决策树规则对流量数据进行分类。实验结果表明:该方法对终端流量类型的识别准确率在92%以上。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术实施例的监测终端流量的方法的流程图;图2是根据本专利技术实施例的终端流量分析监测结构图;图3是根据本专利技术实施例的决策树模型图;图4是根据本专利技术实施例的样本数据的决策树模型图;图5是根据本专利技术实施例的分类结果正确率与错误率折线图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术提供了一种监测终端流量的方法,包括以下步骤。第一阶段,数据提取。步骤S10,数据提取。也就是获取终端产生的流量数据。对终端所连接的无线网络出口处产生的流量数据抓包,并将格式化后的数据入库进行后续建模和分类操作,对分类后的数据可视化并对对异常流量进行警告。具体流程如图2所示。步骤S20,数据预处理。即,对流量数据进行整理形成建立决策树模型所需的特征向量。具体的,在建模前,先将数据库中所存的数据按照建模所用的向量来进行处理,根据请求来源的MAC地址和请求的目标IP地址,进行整理。整理出上行流量总和,下行流量总和,总数据流量,访问的地址所包含的二级链接数等数据。并将数据整理成数据挖掘可读取的格式。其中数据库中的部分数据如表1所示:表1数据库部分样本数据编号所访问IP二级链接访问次数上行流量下行流量11.189.72.17822767204402101.226.129.199205782236763110.246.47.2212687304123.125.80.744211408979………………第二阶段,决策树的建立。步骤S30,提取训练特征向量。在一个实施例中,特征包括二级链接数特征、访问时间频次特征、上下行流量特征和总数据流量特征之中的任意一种或多种。对于页面二级链接数特征:正常软件和木马软件所请求路径的返回结果存在区别,可以根据二者的不同点进行区分,正常网页浏览的页面中一般也包含多级页面,木马软件访问路径与上传下载相似,一般无二级链接或较少。对于访问时间频次特征:用户通过app访问这些页面时在页面停留的时间较长,而且有很大的概率接着点击访问该页面上的链接。这样用户访问该地址的时间阈值就较大,而木马软件访问URL的时间阈值则相对较小。对于上下行流量特征:终端中正常应用在访问网络时一般下行流量会大于上行流量。木马软件则是由服务器进行控制。在远程控制端发送指定的命令到终端后,终端中的木马软件进行响应处理,将命令对应需要得到的数据上传。上行流量一般会大于下行流量。对于总数据流量特征:对于恶意广告或者木马应用来说,一般在访问到与之相关的站点后直接进行流量耗费巨大的应用下载任务。其中就可能包含木马应用。步骤S40,根据特征向量采用ID3算法建立决策树模型。在一个实施例中,步骤S40包括:得到多个维度的特征向量与最终决策的映射关系。其中,通过熵来判别每个维度的向量对最终决策的影响,根据得到的熵得到每个维度的向量的信息增益。在一个实施例中,步骤S40还包括:根据信息增益建立决策树模型。在一个实施例中,步骤S40还包括:在决策树模型的各个分支节点处,通过信息增益来选择特征向量。具体来说,如表2所示,在抓取到的数据中可以发现一个规律,当URL包含的二级链接数较高的时候,访问时间的阈值也较大,单位时间内的访问频率也较高。所以这里对URL包含的二级链接数、上行流量与下行流量比、总数据流量进行分析。表2进行分析的数据项URL二级链接数上下行流量比总数据流量可能来源多小小正常APP多小大正常APP多小大恶意APP多大大正常APP少小小正常APP少小大恶意APP少大大木马APP少大小木马APP将数据分为两块,X={URL二级链接数,上下行流量比,总数据流量},Y={可能来源}。现阶段的目的是建立一颗决策树,让计算机自动去寻找最合适的映射关系,即:Y=f(X),X称之为样本,Y称之为结果(行为/类)。样本是多维的,X={x1,x2,...xn},这里X={URL二级链接数,上下行流量比,总数据流量},通过这些不同维度的观测记录数据,和应对的不同结果,找到规律(映射关系)。X的多维不同的数据影响着Y的最终决策。X的多维数据对决策的影响也不相同,优先级高的对决策的影响也相对较大。影响程度以及对正确结果影响的可信度可以通过训练样本来评判。通过信息论的熵(Entropy)来衡量样本的可信度。用来测量的混乱程度的熵的公式为:在公式2中,设S是s个数据样本的集合。假定类标号向量具有m个不同值,定义m个不同的类Ci(i=1,2...m)。设si是Ci类中的样本数。这样公式2可以给定样本分类所需的期望信息。其中pi是第i个样本向量属于Ci的概率,并用si/sj估计。在公式1中,设向量A具有v个不同的值{a1,a2,…,av},可以用向量A将S划分成v个子集{S1,本文档来自技高网...

【技术保护点】
1.一种监测终端流量的方法,其特征在于,包括:S1,根据特征向量采用ID3算法建立决策树模型;S2,根据所述决策树模型的规则对终端的流量数据进行分类。

【技术特征摘要】
1.一种监测终端流量的方法,其特征在于,包括:S1,根据特征向量采用ID3算法建立决策树模型;S2,根据所述决策树模型的规则对终端的流量数据进行分类。2.根据权利要求1所述的监测终端流量的方法,其特征在于,步骤S1包括:得到多个维度的特征向量与最终决策的映射关系;其中,通过熵来判别每个维度的向量对最终决策的影响,根据得到的熵得到每个维度的向量的信息增益。3.根据权利要求2所述的监测终端流量的方法,其特征在于,步骤S1还包括:根据所述信息增益建立所述决策树模型。4.根据权利要求3所述的监测终端流量的方法,其特征在于,步骤S1还包括:在...

【专利技术属性】
技术研发人员:杨璐张晋锋张永生张仪
申请(专利权)人:曙光信息产业北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1