一种适用于深度学习的通信数据编码方法技术

技术编号：20164616 阅读：36 留言：0更新日期：2019-01-19 00:17

本发明专利技术公开一种适用于深度学习的通信数据编码方法，对流级通信数据进行预处理，聚合成IP通信对，再对IP通信对内的Flow记录进行排序，并抽取出需要编码的字段及对应的属性值序列；基于金字塔池化方法对各属性值序列进行编码，拼接成原始的特征向量；对形成的原始特征向量进行归一化处理，并应用到深度神经网络中进行验证。本发明专利技术能够自动将任何长度的Flow序列编码成定长的原始特征向量，使这类不规则的异构通信数据能够应用于深度学习的场景中；在不需要专家知识介入的情况下，能够充分保留通信行为在时间和空间方面的特性，从而使编码后的数据能够充分代表节点之间的通信特征，从而应用到各类通信行为分析任务中。

全部详细技术资料下载

【技术实现步骤摘要】
一种适用于深度学习的通信数据编码方法
本专利技术涉及网络通信检测及深度学习
，具体为一种适用于深度学习的通信数据编码方法。
技术介绍
深度学习方法被认为具有高度的认知能力和数据抽取能力，被广泛应用于计算机视觉、图像处理、语音识别等领域。与此同时，近年来深度学习也被大量应用于网络通信行为检测方面。然而，深度学习算法对数据的输入具有严格的要求，网络通信分析领域与图像分析领域的数据特点具有一定的差异。在现有的网络通信检测领域的研究中，根据深度学习算法输入类型的不同，可以将这些工作分为基于特征的研究方法和基于原始数据的研究方法。(1)基于特征的研究方法基于特征的研究方法直接利用已有的、预定义的通信特征作为输入，而深度学习算法只是作为分类器的角色存在。一些方法采用著名的KDD-99数据集或NSL-KDD数据集来训练检测模型，这些数据集提供了预定义的41个特征，因此这类研究方法将数据集提供的41维特征直接作为深度学习算法的输入，用来训练检测而模型。此外，还有其他研究将基于专家知识设计的特征作为深度学习算法的输入，如不同属性(如数据包、字节数、会话数等)的统计数据(如sum、max、min、均值、方差、偏差、信息熵等)。(2)基于原始数据的研究方法基于原始数据的研究方法主要采用深度学习算法从原始网络流量数据中自动学习通信特征表示，从而避免了特征工程。一些方法从大量未标记的原始网络流量数据中自动地学习有效的特征表示，在这类方法中，网络会话中的头部信息和部分有效负载的原始数据被作为深度学习算法的输入数据，用来提取网络通信特征。另一些方法将网络流量的前N个字节的原始数据...

【技术保护点】
1.一种适用于深度学习的通信数据编码方法，其特征在于，包括以下步骤：步骤1：将各种格式的流级通信数据进行预处理，规范化成特定的Flow格式，保留信息抽取和编码需要的特定字段；步骤2：将具有相同源IP和目的IP的Flow数据f聚合在一个集合中，形成通信对：NF(x→y)＝

【技术特征摘要】
1.一种适用于深度学习的通信数据编码方法，其特征在于，包括以下步骤：步骤1：将各种格式的流级通信数据进行预处理，规范化成特定的Flow格式，保留信息抽取和编码需要的特定字段；步骤2：将具有相同源IP和目的IP的Flow数据f聚合在一个集合中，形成通信对：NF(x→y)＝<f1,f2,…,fn>，一个通信对内的所有Flow数据表示通信节点x和y之间的所有通信记录；步骤3：将通信对内的Flow数据记录按流的开始时间进行排序，根据前后两条流的开始时间之差计算时间间隔，新增时间间隔字段，形成新的通信对NF′(x→y)；步骤4：根据每条Flow数据中包含的字段，将NF′(x→y)内的Flow序列拆解成对应的属性值序列，每个字段对应一个属性值序列AVS；步骤5：利用空间金字塔池化方法，对每个属性值序列AVS进行编码，将其编码成定长数据；步骤6：在对每个属性值序列AVS编码后，将其拼接，形成原始特征向量FV；步骤7：将原始特征向量FV进行归一化，生成统一的原始特征向量FV′，作为对任何长度的流记录序列的编码数据。2.根据权利要求1所述的适用于深度学习的通信数据编码方法，其特征在于，所述步骤5中基于空间金字塔池化方法进行数据编码的计算过程为：步骤51：将各属性值序列...

【专利技术属性】
技术研发人员：陈兴蜀，邵国林，曾雪梅，王丽娜，何涛，韩珍辉，文奕，
申请(专利权)人：四川大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人