未知二进制私有协议的报文序列聚类方法技术

技术编号：21484866 阅读：32 留言：0更新日期：2019-06-29 06:33

本发明专利技术公开了一种未知二进制私有协议的报文序列聚类方法，主要解决现有技术在协议逆向过程中无法准确衡量协议报文序列之间相似性的问题。其实现方案为：1)采集未知二进制私有协议报文序列；2)对采集的报文序列进行预处理；3)提取预处理报文序列的多尺度N‑gram特征；4)基于方差选择对多尺度N‑gram特征进行降维；5)根据降维后的多尺度N‑gram特征对报文序列做嵌入表示；6)根据报文序列嵌入表示确定最佳聚类个数K；7)根据最佳聚类个数K对报文序列聚类。本发明专利技术充分挖掘了消息报文序列的潜在语义信息，能准确衡量报文序列之间的相似性，提高了聚类的准确度，可用于对未知二进制私有协议的聚类。

全部详细技术资料下载

【技术实现步骤摘要】
未知二进制私有协议的报文序列聚类方法
本专利技术属于信息
，更进一步一种报文序列聚类方法，可用于对未知二进制私有协议的聚类。
技术介绍
网络协议是网络中实体进行通信的规范，明确规定了通信实体间相互交换信息时的数据格式及有关的同步问题。网络中除了标准化的通信协议外，还存在着大量的未知私有协议。报文序列聚类是协议逆向过程中的首要工作，即最大程度的将各个类型的私有协议报文序列根据消息序列之间的相似性将报文分离出来，然后进行字段格式推断和状态机推断。私有协议的报文序列聚类，即网络协议识别的核心问题就是如何准确衡量报文序列之间的相似性。目前未知私有协议的报文序列聚类算法大致可以被分为三类，分别为基于编辑距离的序列聚类算法、基于关键词的序列聚类算法和基于概率模型的序列聚类算法。编辑距离通过将一个字符串变成另一个字符串所需要的最少的操作次数来衡量序列之间的相似性，其中的操作包括插入、删除和替换一个字符。编辑距离算法和Needleman-Wunsch算法中寻找最长公共子序列的思想类似，都是从文本匹配的角度出发，忽略了序列之间的局部特征，而在协议聚类中这些局部特征往往可能是衡量序列之间相似性的关键，即协议关键字。在基于概率模型的序列聚类算法中，往往建模比较困难，而且仅在长序列聚类计算中非常有效。基于关键词的序列聚类算法，比较经典的就是Apriori算法，该算法存在的问题是会出现大量的重叠频繁项，使表示消息报文序列的特征向量维度非常大。2013年王一鹏等人开创性的将自然语言处理中N-gram和狄利克雷分布LDA模型引入协议序列聚类中，使用齐夫定律zipf先确定N的最佳值...

【技术保护点】
1.一种未知二进制私有协议的报文序列聚类方法，其特征在于，包括如下：(1)利用数据采集方法，采集未知二进制私有协议报文序列；(2)对采集的未知二进制私有协议报文序列进行预处理：(2a)通过网络包解析技术剥掉未知二进制私有协议报文序列的链路层和传输层数据，得到应用层二进制私有协议报文序列数据；(2b)按照进制转换规则，将应用层二进制报文序列数据转换为十六进制报文序列数据；(2c)对十六进制报文序列数据进行标注，生成样本数据集；(3)提取样本数据集的多尺度N‑gram特征：(3a)确定N值可取的最小值和最大值范围；(3b)取范围内的N值，以N‑gram模型对样本数据集进行分割，得到分割之后的消息报文序列词向量，作为样本数据集的多尺度N‑gram特征；(4)基于方差选择对多尺度N‑gram特征进行降维：(4a)根据消息报文序列词向量，利用独热编码对消息报文序列进行One‑Hot编码，得到消息报文序列编码之后的特征向量空间模型；(4b)根据特征向量空间模型计算每个特征向量的方差分布；(4c)根据每个特征向量的方差分布对提取的多尺度N‑gram特征进行降维，即选择方差较大的特征向量作为样本数据集...

【技术特征摘要】
1.一种未知二进制私有协议的报文序列聚类方法，其特征在于，包括如下：(1)利用数据采集方法，采集未知二进制私有协议报文序列；(2)对采集的未知二进制私有协议报文序列进行预处理：(2a)通过网络包解析技术剥掉未知二进制私有协议报文序列的链路层和传输层数据，得到应用层二进制私有协议报文序列数据；(2b)按照进制转换规则，将应用层二进制报文序列数据转换为十六进制报文序列数据；(2c)对十六进制报文序列数据进行标注，生成样本数据集；(3)提取样本数据集的多尺度N-gram特征：(3a)确定N值可取的最小值和最大值范围；(3b)取范围内的N值，以N-gram模型对样本数据集进行分割，得到分割之后的消息报文序列词向量，作为样本数据集的多尺度N-gram特征；(4)基于方差选择对多尺度N-gram特征进行降维：(4a)根据消息报文序列词向量，利用独热编码对消息报文序列进行One-Hot编码，得到消息报文序列编码之后的特征向量空间模型；(4b)根据特征向量空间模型计算每个特征向量的方差分布；(4c)根据每个特征向量的方差分布对提取的多尺度N-gram特征进行降维，即选择方差较大的特征向量作为样本数据集的特征向量词汇表；(5)根据特征向量词汇表对消息报文序列做嵌入表示：(5a)利用特征向量词汇表对消息报文序列的词向量进行筛选，只留下特征向量词汇表中的词向量作为消息报文序列的词向量特征；(5b)将样本训练集的词向量特征作为输入，利用word2vec模型进行训练，得到浅层神经网络隐层的权重矩阵作为词汇的嵌入向量字典wv；(5c)对每条消息报文序列中的词汇w找到该词汇在嵌入向量字典wv中的嵌入向量表示wv[w]，并进行相加求平均，得到每条消息报文序列的嵌入向量表示Ev；(5d)将每条消息报文序列的嵌入向量Ev归一化为单位向量，得到消息报文序列的嵌入向量矩阵(6)利用MeanShift概率密度估计方法对消息报文序列的嵌入向量矩阵进行模点搜索，得到消息报文序列的最佳聚类个数K；(7)对消息报文序列进行聚类：(7a)将消息报文序列的嵌入向量矩阵作为输入，利用K-Means聚类方法把消息报文序列划分到K个集合中；(7b)分别将划分到每个集...

【专利技术属性】
技术研发人员：杨超，吴继超，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人