【技术实现步骤摘要】
一种基于随机游走的流量特征自动生成方法与系统
本专利技术属于特征挖掘
,特别涉及一种基于随机游走的流量特征自动生成方法与系统。
技术介绍
随着互联网技术的应用与发展,互联网用户越来越多,且人均每天花费在互联网中的时间也与日俱增。据不完全统计,互联网用户人均每天上网近两小时,流量开销至少200M。因此,网络流量数据的规模及其巨大,其蕴含的信息量和价值也是众所周知,网络安全一直是计算机领域的软肋,网络攻击事件层出不穷。仅2017年上半年,发生的大规模网络攻击(包含信息泄露)事件超过十五起,受影响用户超过一亿,涉事机构超百家,泄露敏感数据数千G。但就目前为止,能够较好检测和防御网络攻击的方法,仍旧是基于网络流量恶意特征识别的方法。同时,恶意流量特征的生成一般是基于专家经验的手工生成以及提取最长最大公共子串方式。同时,人们对于移动互联网设备的依赖性越来越严重,平均每人每天花费在移动电子设备上的时间超过3小时,而花费智能手机上的时间占了将近两个小时。而对于智能手机的使用情况进行分析,发现用户们对于手机的使用,主要集中在了对于智能手机中安装的APP的使用。而手机APP的种类繁多,目前用户常用的APP数量,就超过了10万个。这些APP所对应的属性,比如金融证券、聊天社交、摄影摄像等,在某种程度上,就反映着用户的个人属性。例如,经常使用金融证券的用户身份,很有可能就是证券经理、个人或企业投资者。那么,基于上述的可能性,如果能对可靠地用户APP使用行为进行分析画像,就能得到具有较高可信度的用户描述。但是,用户的APP使用行为属于用户隐私,常规方法无法获取大量的可靠用户 ...
【技术保护点】
1.一种基于随机游走的流量特征自动生成方法,其特征在于,包括:S1,有向图表征流量:将流量内容,以单字节的十六进制数值作为节点所代表的内容,以单字节十六进制值在流量中的前后排列次序作为节点间有向边方向,以节点间的转移次数作为有向边的权重,构建流量内容有向图,表征流量;S2,基于随机游走算法挖掘内容特征:以计算节点之间的转移概率,对流量内容有向图进行归一化处理,使用随机游走方式遍历有向图,挖掘图中隐含模式,以阈值、步长以及内容比对形式,对挖掘生成的隐含模式进行筛选过滤,得到满足条件的隐含模式,还原成流量内容信息后的模式,即流量内容特征,所述还原成流量内容信息后的模式是指节点内容按照节点的转移次序,顺序拼接,还原流量内容信息;S3,生成未知特征组合结构:利用生成的流量内容特征,以会话流分类流量,在流量数据包中出现的内容特征作为有向图中节点,内容特征在数据包内出现的前后次序作为有节点间向边的方向,以节点间的转移次数作为有向边的权重,构建包间内容特征有向图,计算节点转移概率后,再次使用随机游走方法挖掘图中隐含模式,以阈值、步长以及内容比对形式,对挖掘生成的隐含模式进行筛选过滤,得到满足条件的隐 ...
【技术特征摘要】
1.一种基于随机游走的流量特征自动生成方法,其特征在于,包括:S1,有向图表征流量:将流量内容,以单字节的十六进制数值作为节点所代表的内容,以单字节十六进制值在流量中的前后排列次序作为节点间有向边方向,以节点间的转移次数作为有向边的权重,构建流量内容有向图,表征流量;S2,基于随机游走算法挖掘内容特征:以计算节点之间的转移概率,对流量内容有向图进行归一化处理,使用随机游走方式遍历有向图,挖掘图中隐含模式,以阈值、步长以及内容比对形式,对挖掘生成的隐含模式进行筛选过滤,得到满足条件的隐含模式,还原成流量内容信息后的模式,即流量内容特征,所述还原成流量内容信息后的模式是指节点内容按照节点的转移次序,顺序拼接,还原流量内容信息;S3,生成未知特征组合结构:利用生成的流量内容特征,以会话流分类流量,在流量数据包中出现的内容特征作为有向图中节点,内容特征在数据包内出现的前后次序作为有节点间向边的方向,以节点间的转移次数作为有向边的权重,构建包间内容特征有向图,计算节点转移概率后,再次使用随机游走方法挖掘图中隐含模式,以阈值、步长以及内容比对形式,对挖掘生成的隐含模式进行筛选过滤,得到满足条件的隐含模式,在还原成流量的结构信息后,即流量结构特征,所述还原成流量的结构信息是指节点内容按照节点的转移次序,顺序拼接,还原成流量的结构信息。2.根据权利要求1所述基于随机游走的流量特征自动生成方法,其特征在于,所述步骤S2中,以计算节点之间的转移概率,对流量内容有向图进行归一化处理,使用随机游走方式挖掘图中隐含模式,具体过程是:根据转移概率公式,计算任意两节点间的转移概率,对图中的有向边权重进行归一化,随机选取图中的节点作为起始节点和转移方向,根据当前节点到下一节点的转移概率大小是否满足阈值条件,来决定是否进行转移,进而挖掘图中的有效转移路径,即所谓的隐含模式。3.根据权利要求1所述基于随机游走的流量特征自动生成方法,其特征在于,对步骤S2中所述的隐含模式,将节点内容按照节点间的转移次序,顺序拼接,还原成流量内容信息后,以包括转移概率阈值、转移步长阈值以及内容信息出现的频率阈值在内的判断条件,对内容信息进行筛选过滤,满足条件的即为流量内容特征。4.根据权利要求1所述基于随机游走的流量特征自动生成方法,其特征在于,所述步骤S2中计算转移概率,使用转移概率公式:计算节点间的转移概率,其中,PA→B为节点A→B的转移概率,WA→B为A→B有向边的权重,∑WA→i为所有以A为起点的有向边权重之和。5.一种基于随机游走的流量特征自动生成系统,其特征在于,包括:有向图构建子系统,用于生成流量内容有向图;包括预处理模块和图绘制模块,预处理模块将待提取特征的流量,逐个流量数据包记录五元组和负载信息,图绘制模块,将流量数据包的负载内容,以单字节的十六进制数值为节点所代表的内容,以单字节十六进制值在流量负载内容中的前后排列次序作为节点间有向边方向,以节点间的转移次数作为有向边的权重,构建流量内容有向图,表征流量;内容特征生成子系统,用于生成流量内容特征;对流量内容有向图计算节点间的转移概率,依概率挖掘有向图隐含模式模式,以阈值、步长以及内容比对形式,对挖掘生成的隐含模式进行筛选过滤,得到满足条件的隐含模式,还原成流量内容信息后的模式,即流量内容特征。结构特征生成子系统,利用生成得到的流量内容特征,进一步挖掘更加精准的流量结构特征,使特征在保证低误报率的前提下,能拥有更高的精度;利用生成的流量内容特征,以会话流分类流量,在流量数据包中出现了的内容特征作为有向图中节点,内容特征在数据包内出现的前后次序作为有节点间向边的方向,以节点间的转移次数作为有向边的权重,构建包间内容特征有向图,计算节点转移概率后,再次使用随机游走方法挖...
【专利技术属性】
技术研发人员:陶敬,王平辉,曹宇,郑宁,潜禹桥,孙立远,柳哲,林杰,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。