一种基于随机游走的流量特征自动生成方法与系统技术方案

技术编号:19779160 阅读:22 留言:0更新日期:2018-12-15 11:36
本发明专利技术提供一种基于随机游走的流量特征自动生成方法与系统,通过对由流量内容生成的有向图进行分析,以随机游走方式遍历有向图,依据节点间的转移概率,提取多级流量特征,包括流量有向图构建、流量内容特征生成和流量结构特征生成等。以输入的网络流量数据构建规模化有向图,以多级随机游走方式挖掘出流量中隐含的特征。本发明专利技术可用于流量特征的提取以及恶意流量检测。

【技术实现步骤摘要】
一种基于随机游走的流量特征自动生成方法与系统
本专利技术属于特征挖掘
,特别涉及一种基于随机游走的流量特征自动生成方法与系统。
技术介绍
随着互联网技术的应用与发展,互联网用户越来越多,且人均每天花费在互联网中的时间也与日俱增。据不完全统计,互联网用户人均每天上网近两小时,流量开销至少200M。因此,网络流量数据的规模及其巨大,其蕴含的信息量和价值也是众所周知,网络安全一直是计算机领域的软肋,网络攻击事件层出不穷。仅2017年上半年,发生的大规模网络攻击(包含信息泄露)事件超过十五起,受影响用户超过一亿,涉事机构超百家,泄露敏感数据数千G。但就目前为止,能够较好检测和防御网络攻击的方法,仍旧是基于网络流量恶意特征识别的方法。同时,恶意流量特征的生成一般是基于专家经验的手工生成以及提取最长最大公共子串方式。同时,人们对于移动互联网设备的依赖性越来越严重,平均每人每天花费在移动电子设备上的时间超过3小时,而花费智能手机上的时间占了将近两个小时。而对于智能手机的使用情况进行分析,发现用户们对于手机的使用,主要集中在了对于智能手机中安装的APP的使用。而手机APP的种类繁多,目前用户常用的APP数量,就超过了10万个。这些APP所对应的属性,比如金融证券、聊天社交、摄影摄像等,在某种程度上,就反映着用户的个人属性。例如,经常使用金融证券的用户身份,很有可能就是证券经理、个人或企业投资者。那么,基于上述的可能性,如果能对可靠地用户APP使用行为进行分析画像,就能得到具有较高可信度的用户描述。但是,用户的APP使用行为属于用户隐私,常规方法无法获取大量的可靠用户APP使用行为样本。不过对于移动数据供应商而言,可以获取到用户的流量数据。如果,能从用户的移动设备流量中,识别出用户所使用的APP,则对于获取可靠的用户APP使用行为就成为了可能。综上所述,流量特征对于当前诸多基于流量特征识别问题的解决,具有决定性作用。目前已经有一些方法来自动提取流量的识别特征了。其中一类是根据包字段作为流量特征的,包含IP地址、端口号、协议类型等。后来衍生除了深度包检测(DPI)方法提取流量指纹,提取包内容特征字符串。以及当前业界主流的最长最大公共子序列提取方法。但这些方法都有各自的局限性:1、基于包字段的特征提取方法:当前的流量协议类型、端口号等常用字段都集中于常用的几种类型,包字段已经不再具有区分度,无法作为流量特征。2、基于深度包检测的流量指纹提取方法:对流量格式有限制,无法通用化地提取所有类型的流量特征。3、基于最长最大公共子序列提取方法:只能提取流量内容特征,在损失了精度的情况下,换取较低的误报率。
技术实现思路
为了克服上述现有技术的缺点,本专利技术的目的在于提供一种基于随机游走的流量特征自动生成方法与系统,对输入的流量数据没有任何限制,可以适用于不同类型的流量特征生成;另外,采用多级有向图构建和随机游走方式,生成流量内容特征和结构特征,在低误报率的前提下,提高特征识别的精度。为了实现上述目的,本专利技术采用的技术方案是:一种基于随机游走的流量特征自动生成方法,其特征在于,包括:S1,有向图表征流量:将流量内容,以单字节的十六进制数值作为节点所代表的内容,以单字节十六进制值在流量中的前后排列次序作为节点间有向边方向,以节点间的转移次数作为有向边的权重,构建流量内容有向图,表征流量;S2,基于随机游走算法挖掘内容特征:以计算节点之间的转移概率,对流量内容有向图进行归一化处理,使用随机游走方式遍历有向图,挖掘图中隐含模式,以阈值、步长以及内容比对形式,对挖掘生成的隐含模式进行筛选过滤,得到满足条件的隐含模式。还原成流量内容信息后的模式(节点内容按照节点的转移次序,顺序拼接,还原流量内容信息),即流量内容特征;S3,生成未知特征组合结构:利用生成的流量内容特征,以会话流分类流量,在流量数据包中出现了的内容特征作为有向图中节点,内容特征在数据包内出现的前后次序作为有节点间向边的方向,以节点间的转移次数作为有向边的权重,构建包间内容特征有向图,计算节点转移概率后,再次使用随机游走方法挖掘图中隐含模式,以阈值、步长以及内容比对形式,对挖掘生成的隐含模式进行筛选过滤,得到满足条件的隐含模式,在还原成流量的结构信息后(节点内容按照节点的转移次序,顺序拼接,还原成流量的结构信息),即流量的结构特征。对于一组同种传输层协议类型的流量,其传输层负载内容部分存在相同的公共子集。这些公共子集出现的频率越大,越能够良好地表征此类流量的内容。对应于本专利技术,公共子集映射为流量内容有向图中的转移路径,频率映射为有向图中的节点转移概率。当负载内容公共子集出现的频率越大时,其在流量内容有向图中的转移概率越大。因此本专利技术的内容特征生成方法,能够有效地提取出流量负载部分的内容特征。对于特定类别的流量,当流量负载具备某一特定结构时,才能唯一表征此类别。例如:攻击流量序列1中包含A---X---B三个内容特征,攻击流量序列2中包含A---Y---B三个内容特征,两个序列具备相同的流量结构:A~B。当此结构存在时,才能唯一表征该类流量,单独存在A或B时,无法有效表征。本方法基于上述事实情况,将生成得到的流量内容特征(A、B)构建流量内容特征有向图,以随机游走方式挖掘该图中隐含的模式,即流量内容特征序列,此序列将构成流量的结构特征。所述步骤S2中,以计算节点之间的转移概率,对流量内容有向图进行归一化处理,使用随机游走方式挖掘图中隐含模式,具体过程是:根据转移概率公式,计算任意两节点间的转移概率,对图中的有向边权重进行归一化,随机选取图中的节点作为起始节点和转移方向,根据当前节点到下一节点的转移概率大小是否满足阈值条件,来决定是否进行转移,进而挖掘图中的有效转移路径,即所谓的隐含模式。对步骤S2中所述的隐含模式,将节点内容按照节点间的转移次序,顺序拼接,还原成流量内容信息后,以包括转移概率阈值、转移步长阈值以及内容信息出现的频率阈值在内的判断条件,对内容信息进行筛选过滤,满足条件的即为流量内容特征。所述步骤S2中计算转移概率,使用转移概率公式:计算节点间的转移概率,其中,PA→B为节点A→B的转移概率,WA→B为A→B有向边的权重,∑WA→i为所有以A为起点的有向边权重之和。本专利技术还提供了一种基于随机游走的流量特征自动生成系统,包括:有向图构建子系统,用于生成流量内容有向图;包括预处理模块和图绘制模块,预处理模块将待提取特征的流量,逐个流量数据包记录五元组和负载信息,图绘制模块,将流量数据包的负载内容,以单字节的十六进制数值为节点所代表的内容,以单字节十六进制值在流量负载内容中的前后排列次序作为节点间有向边方向,以节点间的转移次数作为有向边的权重,构建流量内容有向图,表征流量;内容特征生成子系统,用于生成流量内容特征;对流量内容有向图计算节点间的转移概率,依概率挖掘有向图隐含模式模式,以阈值、步长以及内容比对形式,对挖掘生成的隐含模式进行筛选过滤,得到满足条件的隐含模式,还原成流量内容信息后的模式,即流量内容特征。结构特征生成子系统,利用生成得到的流量内容特征,进一步挖掘更加精准的流量结构特征,使特征在保证低误报率的前提下,能拥有更高的精度;利用生成的流量内容特征,以会话本文档来自技高网
...

【技术保护点】
1.一种基于随机游走的流量特征自动生成方法,其特征在于,包括:S1,有向图表征流量:将流量内容,以单字节的十六进制数值作为节点所代表的内容,以单字节十六进制值在流量中的前后排列次序作为节点间有向边方向,以节点间的转移次数作为有向边的权重,构建流量内容有向图,表征流量;S2,基于随机游走算法挖掘内容特征:以计算节点之间的转移概率,对流量内容有向图进行归一化处理,使用随机游走方式遍历有向图,挖掘图中隐含模式,以阈值、步长以及内容比对形式,对挖掘生成的隐含模式进行筛选过滤,得到满足条件的隐含模式,还原成流量内容信息后的模式,即流量内容特征,所述还原成流量内容信息后的模式是指节点内容按照节点的转移次序,顺序拼接,还原流量内容信息;S3,生成未知特征组合结构:利用生成的流量内容特征,以会话流分类流量,在流量数据包中出现的内容特征作为有向图中节点,内容特征在数据包内出现的前后次序作为有节点间向边的方向,以节点间的转移次数作为有向边的权重,构建包间内容特征有向图,计算节点转移概率后,再次使用随机游走方法挖掘图中隐含模式,以阈值、步长以及内容比对形式,对挖掘生成的隐含模式进行筛选过滤,得到满足条件的隐含模式,在还原成流量的结构信息后,即流量结构特征,所述还原成流量的结构信息是指节点内容按照节点的转移次序,顺序拼接,还原成流量的结构信息。...

【技术特征摘要】
1.一种基于随机游走的流量特征自动生成方法,其特征在于,包括:S1,有向图表征流量:将流量内容,以单字节的十六进制数值作为节点所代表的内容,以单字节十六进制值在流量中的前后排列次序作为节点间有向边方向,以节点间的转移次数作为有向边的权重,构建流量内容有向图,表征流量;S2,基于随机游走算法挖掘内容特征:以计算节点之间的转移概率,对流量内容有向图进行归一化处理,使用随机游走方式遍历有向图,挖掘图中隐含模式,以阈值、步长以及内容比对形式,对挖掘生成的隐含模式进行筛选过滤,得到满足条件的隐含模式,还原成流量内容信息后的模式,即流量内容特征,所述还原成流量内容信息后的模式是指节点内容按照节点的转移次序,顺序拼接,还原流量内容信息;S3,生成未知特征组合结构:利用生成的流量内容特征,以会话流分类流量,在流量数据包中出现的内容特征作为有向图中节点,内容特征在数据包内出现的前后次序作为有节点间向边的方向,以节点间的转移次数作为有向边的权重,构建包间内容特征有向图,计算节点转移概率后,再次使用随机游走方法挖掘图中隐含模式,以阈值、步长以及内容比对形式,对挖掘生成的隐含模式进行筛选过滤,得到满足条件的隐含模式,在还原成流量的结构信息后,即流量结构特征,所述还原成流量的结构信息是指节点内容按照节点的转移次序,顺序拼接,还原成流量的结构信息。2.根据权利要求1所述基于随机游走的流量特征自动生成方法,其特征在于,所述步骤S2中,以计算节点之间的转移概率,对流量内容有向图进行归一化处理,使用随机游走方式挖掘图中隐含模式,具体过程是:根据转移概率公式,计算任意两节点间的转移概率,对图中的有向边权重进行归一化,随机选取图中的节点作为起始节点和转移方向,根据当前节点到下一节点的转移概率大小是否满足阈值条件,来决定是否进行转移,进而挖掘图中的有效转移路径,即所谓的隐含模式。3.根据权利要求1所述基于随机游走的流量特征自动生成方法,其特征在于,对步骤S2中所述的隐含模式,将节点内容按照节点间的转移次序,顺序拼接,还原成流量内容信息后,以包括转移概率阈值、转移步长阈值以及内容信息出现的频率阈值在内的判断条件,对内容信息进行筛选过滤,满足条件的即为流量内容特征。4.根据权利要求1所述基于随机游走的流量特征自动生成方法,其特征在于,所述步骤S2中计算转移概率,使用转移概率公式:计算节点间的转移概率,其中,PA→B为节点A→B的转移概率,WA→B为A→B有向边的权重,∑WA→i为所有以A为起点的有向边权重之和。5.一种基于随机游走的流量特征自动生成系统,其特征在于,包括:有向图构建子系统,用于生成流量内容有向图;包括预处理模块和图绘制模块,预处理模块将待提取特征的流量,逐个流量数据包记录五元组和负载信息,图绘制模块,将流量数据包的负载内容,以单字节的十六进制数值为节点所代表的内容,以单字节十六进制值在流量负载内容中的前后排列次序作为节点间有向边方向,以节点间的转移次数作为有向边的权重,构建流量内容有向图,表征流量;内容特征生成子系统,用于生成流量内容特征;对流量内容有向图计算节点间的转移概率,依概率挖掘有向图隐含模式模式,以阈值、步长以及内容比对形式,对挖掘生成的隐含模式进行筛选过滤,得到满足条件的隐含模式,还原成流量内容信息后的模式,即流量内容特征。结构特征生成子系统,利用生成得到的流量内容特征,进一步挖掘更加精准的流量结构特征,使特征在保证低误报率的前提下,能拥有更高的精度;利用生成的流量内容特征,以会话流分类流量,在流量数据包中出现了的内容特征作为有向图中节点,内容特征在数据包内出现的前后次序作为有节点间向边的方向,以节点间的转移次数作为有向边的权重,构建包间内容特征有向图,计算节点转移概率后,再次使用随机游走方法挖...

【专利技术属性】
技术研发人员:陶敬王平辉曹宇郑宁潜禹桥孙立远柳哲林杰
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1