当前位置: 首页 > 专利查询>四川大学专利>正文

一种适用于深度学习的通信数据编码方法技术

技术编号:20164616 阅读:36 留言:0更新日期:2019-01-19 00:17
本发明专利技术公开一种适用于深度学习的通信数据编码方法,对流级通信数据进行预处理,聚合成IP通信对,再对IP通信对内的Flow记录进行排序,并抽取出需要编码的字段及对应的属性值序列;基于金字塔池化方法对各属性值序列进行编码,拼接成原始的特征向量;对形成的原始特征向量进行归一化处理,并应用到深度神经网络中进行验证。本发明专利技术能够自动将任何长度的Flow序列编码成定长的原始特征向量,使这类不规则的异构通信数据能够应用于深度学习的场景中;在不需要专家知识介入的情况下,能够充分保留通信行为在时间和空间方面的特性,从而使编码后的数据能够充分代表节点之间的通信特征,从而应用到各类通信行为分析任务中。

【技术实现步骤摘要】
一种适用于深度学习的通信数据编码方法
本专利技术涉及网络通信检测及深度学习
,具体为一种适用于深度学习的通信数据编码方法。
技术介绍
深度学习方法被认为具有高度的认知能力和数据抽取能力,被广泛应用于计算机视觉、图像处理、语音识别等领域。与此同时,近年来深度学习也被大量应用于网络通信行为检测方面。然而,深度学习算法对数据的输入具有严格的要求,网络通信分析领域与图像分析领域的数据特点具有一定的差异。在现有的网络通信检测领域的研究中,根据深度学习算法输入类型的不同,可以将这些工作分为基于特征的研究方法和基于原始数据的研究方法。(1)基于特征的研究方法基于特征的研究方法直接利用已有的、预定义的通信特征作为输入,而深度学习算法只是作为分类器的角色存在。一些方法采用著名的KDD-99数据集或NSL-KDD数据集来训练检测模型,这些数据集提供了预定义的41个特征,因此这类研究方法将数据集提供的41维特征直接作为深度学习算法的输入,用来训练检测而模型。此外,还有其他研究将基于专家知识设计的特征作为深度学习算法的输入,如不同属性(如数据包、字节数、会话数等)的统计数据(如sum、max、min、均值、方差、偏差、信息熵等)。(2)基于原始数据的研究方法基于原始数据的研究方法主要采用深度学习算法从原始网络流量数据中自动学习通信特征表示,从而避免了特征工程。一些方法从大量未标记的原始网络流量数据中自动地学习有效的特征表示,在这类方法中,网络会话中的头部信息和部分有效负载的原始数据被作为深度学习算法的输入数据,用来提取网络通信特征。另一些方法将网络流量的前N个字节的原始数据表示为图像,然后基于CNN、AutoEncoder、DBN等方法进行特征表示学习。现有研究主要关注预先提取好的特征或网络流量的Payload数据,而较少关注NetFlow、NetStream、IPFIX等通信数据。基于特征的研究方法直接使用基于专家知识构造的通信特征作为输入,而未充分利用深度学习的特征自动提取能力和优势。基于原始数据的研究方法通常关注于流量负载,而不是异构的通信数据。对于负载长度不一致问题,这类方法主要采取简单的截断方法(只保留了前N个字节)。然而,在大规模网络流量应用场景下的网络异常检测、网络应用识别、网络行为分析等领域,网络流量数据通常以获取及存储成本较低、扩展性较好的NetFlow、NetStream、IPFIX等格式表示。然而,异构通信数据具有不同尺度、不同规模等特性,无法直接应用于深度学习场景,具体表现在以下两个方面:1)原始的通信数据具有尺度差异性,在图像识别领域,作为深度学习算法输入的像素数据具有相同量纲,而一条NetFlow记录由不同尺度的属性构成,如发包数、字节数、持续时间等属性,它们的量纲各不相同,甚至数据类型也有差异;2)原始的结构化通信数据具有规模差异性,在图像识别领域,作为深度学习训练样本的图像数据具有相同的尺寸,而不同通信节点间的NetFlow序列,在时间和空间上都表现为不同的规模,如不同通信节点间NetFlow序列的长度不同,即使NetFlow序列长度相同,总的通信持续时长也未必相同。因此,原始的结构化通信数据无法直接作为深度学习算法的输入进行应用。
技术实现思路
针对上述问题,本专利技术的目的在于提供一种适用于深度学习的通行数据编码方法,在尽量保留通信时空特性的基础上,实现对异构通信数据的编码。该方法能够很好地解决深度学习在流量数据上的特征自动提取问题,同时也能为网络行为分析、网络应用识别等其他相关通信行为分析领域带来深刻的借鉴作用。技术方案如下:一种适用于深度学习的通信数据编码方法,包括以下步骤:步骤1:将各种格式的流级通信数据进行预处理,规范化成特定的Flow格式,保留信息抽取和编码需要的特定字段;步骤2:将具有相同源IP和目的IP的Flow数据f聚合在一个集合中,形成通信对:NF(x→y)=<f1,f2,…,fn>,一个通信对内的所有Flow数据表示通信节点x和y之间的所有通信记录;步骤3:将通信对内的Flow数据记录按流的开始时间进行排序,根据前后两条流的开始时间之差计算时间间隔,新增时间间隔字段,形成新的通信对NF′(x→y);步骤4:根据每条Flow数据中包含的字段,将NF′(x→y)内的Flow序列拆解成对应的属性值序列,每个字段对应一个属性值序列AVS;步骤5:利用空间金字塔池化方法,对每个属性值序列AVS进行编码,将其编码成定长数据;步骤6:在对每个属性值序列AVS编码后,将其拼接,形成原始特征向量FV;步骤7:将原始特征向量FV进行归一化,生成统一的原始特征向量FV′,作为对任何长度的流记录序列的编码数据。进一步的,所述步骤5中基于空间金字塔池化方法进行数据编码的计算过程为:步骤51:将各属性值序列AVS依次平均分割成1、2、4、8、……、2L-1块,L表示金字塔的层数;步骤52:分别计算每块数据的平均数、总数和众数,从每块数据中抽取出3个值;步骤53:将这些值进行拼接,每个属性值序列AVS将产生3*(2L-1)个值。更进一步的,所述步骤2之后还包括:过滤掉Flow记录数小于2L-1的通信对。更进一步的,对通信对内长度不定的Flow数据进行编码时,同时保留通信节点间通信行为的空间特性和时间特性;对于对应的属性值的统计情况和分布情况的字段进行了进一步的选择,将源端口、目的端口、字节数、包数字段加入到待编码字段中;对于与通信时间相关以及各类字段对应的属性值随时间变化的趋势的字段进行进一步处理:将通信对内的Flow记录按time字段从小到大进行排序,根据前后两条流的time之差计算时间间隔,同时将时间间隔和持续时间字段加入到待编码字段中。更进一步的,所述步骤7中将原始特征向量FV进行归一化采用Z-score标准化方法,计算函数为:式中,x为原始特征向量初始值,x*为原始特征向量标准值;μ为均值,σ为标准差。本专利技术的有益效果是:本专利技术能够自动将任何长度的Flow序列编码成定长的原始特征向量,使这类不规则的异构通信数据能够应用于深度学习的场景中;在不需要专家知识介入的情况下,能够充分保留通信行为在时间和空间方面的特性,从而使编码后的数据能够充分代表节点之间的通信特征,从而应用到各类通信行为分析任务中。附图说明图1为本专利技术中通信数据编码流程图。图2为本专利技术中基于金字塔池化思想的数据编码方法示意图。图3为本专利技术中基于CNN的特征提取流程示意图。具体实施方式下面结合附图和具体实施例对本专利技术做进一步详细说明。本专利技术方法在具体实施时的流程如图1所示,主要包括以下步骤:A.对流级通信数据进行预处理,聚合成IP通信对;B.对IP通信对内的Flow记录进行排序,并抽取出需要编码的字段及对应的属性值序列;C.基于金字塔池化方法对各属性值序列进行编码,拼接成原始的特征向量;D.对形成的原始特征向量进行归一化处理,并应用到深度神经网络中进行验证。所述步骤A中的各种格式的流级通信数据包括NstFlow、NetStream、IPFIX等xFlow类型,这类数据提供了节点之间数据通信的流级视图,包括了一段通信时间内的数据包统计信息。每种xFlow类型都提供了自定义的格式和协议,为了对这类流级本文档来自技高网
...

【技术保护点】
1.一种适用于深度学习的通信数据编码方法,其特征在于,包括以下步骤:步骤1:将各种格式的流级通信数据进行预处理,规范化成特定的Flow格式,保留信息抽取和编码需要的特定字段;步骤2:将具有相同源IP和目的IP的Flow数据f聚合在一个集合中,形成通信对:NF(x→y)=

【技术特征摘要】
1.一种适用于深度学习的通信数据编码方法,其特征在于,包括以下步骤:步骤1:将各种格式的流级通信数据进行预处理,规范化成特定的Flow格式,保留信息抽取和编码需要的特定字段;步骤2:将具有相同源IP和目的IP的Flow数据f聚合在一个集合中,形成通信对:NF(x→y)=<f1,f2,…,fn>,一个通信对内的所有Flow数据表示通信节点x和y之间的所有通信记录;步骤3:将通信对内的Flow数据记录按流的开始时间进行排序,根据前后两条流的开始时间之差计算时间间隔,新增时间间隔字段,形成新的通信对NF′(x→y);步骤4:根据每条Flow数据中包含的字段,将NF′(x→y)内的Flow序列拆解成对应的属性值序列,每个字段对应一个属性值序列AVS;步骤5:利用空间金字塔池化方法,对每个属性值序列AVS进行编码,将其编码成定长数据;步骤6:在对每个属性值序列AVS编码后,将其拼接,形成原始特征向量FV;步骤7:将原始特征向量FV进行归一化,生成统一的原始特征向量FV′,作为对任何长度的流记录序列的编码数据。2.根据权利要求1所述的适用于深度学习的通信数据编码方法,其特征在于,所述步骤5中基于空间金字塔池化方法进行数据编码的计算过程为:步骤51:将各属性值序列...

【专利技术属性】
技术研发人员:陈兴蜀邵国林曾雪梅王丽娜何涛韩珍辉文奕
申请(专利权)人:四川大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1