一种基于深度学习的列车通信网络流量识别方法技术

技术编号:29047555 阅读:71 留言:0更新日期:2021-06-26 06:05
本发明专利技术公开了一种基于深度学习的列车通信网络流量识别方法,具体为:首先利用抓包工具对列车通信网络流量数据进行采集,并对其pcap文件进行读取及解析,经过会话重组、数据清洗及等长处理、归一化处理后,对样本数据进行标签的标注,然后利用样本数据对一维卷积神经网络进行训练;最后只需要将未知流量输入训练好的模型中,就能实现对列车通信网络流量中传统应用层协议以及铁路私有协议的有效分类。本发明专利技术实现对列车控制与服务网络中的常见应用层协议以及铁路私有协议进行有效的识别与分类;能够更为精确的提取到有用的特征信息,实现更高的精度、查准率和查全率。查准率和查全率。查准率和查全率。

【技术实现步骤摘要】
一种基于深度学习的列车通信网络流量识别方法


[0001]本专利技术属于信息通信
,尤其涉及一种基于深度学习的列车通信网络流量识别方法。

技术介绍

[0002]随着传统列车通信网络与旅客服务网络的融合以及以太网技术的引入,列车通信网络对传输性能的要求大大增加,此外还引发众多安全问题,如:Dos攻击和IP地址欺骗等。为了保证列车服务网络中流量的合理调度与监管,避免出现网络拥塞、网络入侵等现象,对网络流量进行分类识别和特性分析十分必要。目前流量识别的方法主要分为以下几个方向:基于端口号的识别方法、基于荷载特征的识别方法
[0003]初期流量识别技术的方法主要是基于端口号的识别方法。这种方法的核心原理是直接以互联网数字分配机构所定义的标准协议

端口表为基础构建映射表,在网络流量分类时,通过在已有的映射表中查询报文中的端口号,得到相应的协议。随着动态端口号技术的普及以及P2P应用的出现,网络环境的复杂程度不可同日而语,很多应用并没有预先分配的端口号,甚至有些应用为了逃避检测,直接使用其他应用的默认端口号进行通信,因此面对如此庞大的应用种类,端口号判定法的识别能力显得有些捉襟见肘。为了避免使用端口号识别流量所带来的较大误差,于是另一种技术应运而生——深度包检测DPI(Deep Packet Inspection)技术。深度包检测技术不仅检查IP包头和TCP/IP包头部分的信息,而且还会更深入的检查数据包内所有荷载的内容。但是深度包检测方法仍旧还有不足的地方,随着物联网、云计算以及人工智能、在线视频等应用的发展,人们对带宽的需求越来越大,数据传输率也随之增大。大量数据在进行特征码匹配时,对计算机资源需求也增大,无法保证实时性。此外,随着网络的发展,加密数据无处不在,经过加密处理的流量数据将无法正常进行特征码的匹配,这也是限制深度包检测技术发展的一大原因;再者,特征码作为数据流量的唯一标识,一旦它的提取、识别出错,将会直接影响到深度包检测的准确率,特征码的提取并不简单,它需要网络专家对流量数据进行分析才能得到。特征库是人为维护更新的,因此在维护特征库时会增加人力成本,当出现新的类别时,需要及时更新,否则会严重影响到流量识别的准确性。
[0004]由于基于端口号和基于深度包检测技术在某些方面都存在一些不可忽视的缺陷,近些年越来越多的研究者将机器学习与流量识别技术相结合。基于机器学习的流量识别方法由于只利用流的统计特征就能对流量进行准确识别,并且对未知应用也有较好的识别效果,在近些年得到了极大的发展。但是这类方法也并非毫无缺点,比如部分算法复杂度较高,计算开销较大,且还要考虑分类器的可扩展性、鲁棒性以及实时性等多方面性能。在种类繁多的流量分类方法中,无论哪种分类方法都有其适用性和局限性,因此,要根据各类识别方法的适用范围及分类需求选择最适合的流量分类方法。

技术实现思路

[0005]考虑到要进行识别的目标流量是基于列车通信网络的数据流量,其中包含了许多铁路私有协议,例如TRDP、RSSP

1、RSSP

2等等,因此,为了对列车通信网络流量进行智能、有效的识别,本专利技术提供一种基于深度学习的列车通信网络流量识别方法。
[0006]本专利技术的一种基于深度学习的列车通信网络流量识别方法,包括以下步骤:
[0007]步骤1:数据预处理,通过抓包工具对目标流量进行捕获,并将采集的目标流量由原始的pcap格式转化为符合神经网络模型输入数据标准的idx格式。
[0008]步骤2:搭建基于一维卷积神经网络的流量识别模型:网络流量是按照层次化结构进行组织的时序数据,属于一维字节流,类似于自然语言处理,因此本专利技术搭建一维卷积神经网络对流量进行协议识别,然后将步骤1中得到的包含协议标签的预处理数据作为训练数据传入一维卷积神经网络输入层,经过多层空洞卷积层的特征提取后,送入到全连接层进行分类,将输出数据与标签数据进行误差运算,得到一个误差值,然后根据误差值进行反向传播,修正网络模型参数,如此反复,直至模型收敛或者达到预设的停止条件。
[0009]步骤3:对列车通信网络流量进行采集,对采集的目标流量依次进行流量重组、数据清洗、流量截取、归一化处理后,将得到的等长向量输入训练好的一维卷积神经网络模型,计算得到其协议类型预测值。
[0010]进一步的,针对上述提到的数据预处理方法,其步骤包括:根据五元组将采集的原始流量以会话的形式进行重组;对重复以及无内容的数据包进行清理;对每个会话的前部固定长度字节进行等长度截取,长度不足则用0进行填充;对样本数据进行归一化处理:首先将截取的等长向量进行十进制转换,然后对转换后的向量进行最大

最小值归一化,使向量中的每个分量统一到一个区间,最后为每一条样本数据添加应用层协议标签。
[0011]进一步的,上述会话即为由双向流组成的所有包,其五元组中的源IP、源端口和目的IP、目的端口可以互换。
[0012]进一步的,会话重组首先要将双向流进行重组,流重组分为TCP流和UDP流两种:根据TCP协议数据传输的特点,可通过TCP首部的SYN位和FIN位来判断连接的建立和释放,从而可以确定流的开始、结束及其完整性。然后通过序列号和负载数据的长度将数据包重组为一条有序流。与TCP协议的通信机制不同,由于UDP是无连接协议,因此本专利技术通过数据包的发送时间和流的持续时间来判断。首先选择第一个数据包的发送时间作为流的开始时间,计算接下来的每个数据包与第一个数据包发送时间的差值,若差值大于预先设定好的流最大持续时间,则该数据包属于下一条流,上一个数据包即为上一条流结束的标志。
[0013]进一步的,应用层协议标签数据使用one

hot进行独热编码。
[0014]进一步的,步骤2中一维卷积神经网络结构包括输入层,空洞卷积1层C1,池化一层P1,空洞卷积2层C2,池化2层P2,空洞卷积3层C3,池化3层P3,空洞卷积4层C4,池化4层P4,以及1层全连接层F1,最后连接一个输出层O1,输出层神经元个数等于应用层协议的类别数。
[0015]进一步的,针对应用层协议分类这一应用场景,输出层选择softmax激活函数,以达到有效分类的目的。
[0016]本专利技术与现有技术相比具有以下的优点及效果:
[0017]1、本专利技术方法使用表征学习思想的深度学习技术,基于端到端的学习形式使得不需要预先对流量特征进行特征设计和人工提取特征,直接对原始流量进行处理后作为输
入,解决了准确有效的设计特征这一困难,实现对列车控制与服务网络中的常见应用层协议以及铁路私有协议进行有效的识别与分类。
[0018]2、本专利技术方法选择了会话的形式对流量进行重组,由于会话包含了双向的信息交互,因此包含了更充足、更丰富的信息,让神经网络模型所学习到的特征更具代表性,进而提升了分类的准确率。
[0019]3、本专利技术方法所针对的是一种具有时序特征的流量数据,与适合二维卷积的图片、音视频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的列车通信网络流量识别方法,其特征在于,包括以下步骤:步骤1:数据预处理:通过抓包工具对目标流量进行捕获,并将采集的目标流量由原始的pcap格式转化为符合神经网络模型输入数据标准的idx格式;步骤2:搭建基于一维卷积神经网络的流量识别模型:搭建一维卷积神经网络对流量进行协议识别,然后将步骤1中得到的包含协议标签的预处理数据作为训练数据传入一维卷积神经网络输入层,经过多层空洞卷积层的特征提取后,送入到全连接层进行分类,将输出数据与标签数据进行误差运算,得到一个误差值,然后根据误差值进行反向传播,修正网络模型参数,如此反复,直至模型收敛或者达到预设的停止条件;步骤3:对列车通信网络流量进行采集,对采集的目标流量依次进行流量重组、数据清洗、流量截取、归一化处理后,将得到的等长向量输入训练好的一维卷积神经网络模型,计算得到其协议类型预测值。2.根据权利要求1所述的一种基于深度学习的列车通信网络流量识别方法,其特征在于,所述步骤1具体为:根据五元组将采集的原始流量以会话的形式进行会话重组;对重复以及无内容的数据包进行清理;对每个会话的前部固定长度字节进行等长度截取,长度不足则用0进行填充;对样本数据进行归一化处理:将截取的等长向量进行十进制转换,然后对转换后的向量进行最大

最小值归一化,使向量中的每个分量统一到一个区间,最后为每一条样本数据添加应用层协议标签。3.根据权利要求2所述的一种基于深度学习的列车通信网络流量识别方法,其特征在于,所述会话为由...

【专利技术属性】
技术研发人员:邢志铖闫连山李赛飞李洪赭
申请(专利权)人:西南交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1