一种基于多协议混合场景的未知协议聚类方法和系统技术方案

技术编号:35787829 阅读:18 留言:0更新日期:2022-12-01 14:35
本发明专利技术公开了一种基于多协议混合场景的未知协议聚类方法和系统,所述方法包括:获取待处理的未知协议的流量数据;利用特征工程将所述流量数据转换为灰度图片;基于预先训练的特征提取模型,对所述灰度图片进行特征提取,以得到特征向量;基于预存的聚类算法对所述特征向量进行聚类,以得到聚类结果;其中,所述特征提取模型是根据已知协议样本转换得到的灰度图片样本进行训练得到的。解决了现有技术中在多协议混合场景下,未知协议聚类准确性较差、效率较低的问题。效率较低的问题。效率较低的问题。

【技术实现步骤摘要】
一种基于多协议混合场景的未知协议聚类方法和系统


[0001]本专利技术涉及网络信息
,具体涉及一种基于多协议混合场景的未知协议聚类方法和系统。

技术介绍

[0002]网络信息安全与对抗已成为信息时代备受关注的重要问题。在电子对抗等领域,通信双方使用的协议往往是订制的、非公开的,所截获的通信数据大多是连续的比特流信息;在网络监管等领域,网络通信过程中使用的协议解析工具也会遇到许多无法解析的比特流协议。对于这些协议,协议分析者没有任何先验知识,聚类解析这些完全未知的协议十分困难。
[0003]在现有技术中,通常利用指纹特征的数据帧定界方法或者基于关联规则对特定环境下的未知协议进行聚类分析。这些方法都能在相应的设定条件下取得较好的效果,能为识别未知协议提供有用的参考,但它们均是在单协议假定下进行分析,在实际应用环境下,捕获得到的未知协议数据往往是多种协议混合的,无法通过上述方式实现未知协议的快速聚类。

技术实现思路

[0004]为此,本专利技术实施例提供一种基于多协议混合场景的未知协议聚类方法和系统,以至少部分解决现有技术中在多协议混合场景下,未知协议聚类准确性较差、效率较低的问题。
[0005]为了实现上述目的,本专利技术实施例提供如下技术方案:
[0006]本专利技术提供一种基于多协议混合场景的未知协议聚类方法,所述方法包括:
[0007]获取待处理的未知协议的流量数据;
[0008]利用特征工程将所述流量数据转换为灰度图片;
[0009]基于预先训练的特征提取模型,对所述灰度图片进行特征提取,以得到特征向量;
[0010]基于预存的聚类算法对所述特征向量进行聚类,以得到聚类结果;
[0011]其中,所述特征提取模型是根据已知协议样本转换得到的灰度图片样本进行训练得到的。
[0012]在一些实施例中,利用特征工程将所述流量数据转换为灰度图片,具体包括:
[0013]对所述流量数据进行清洗,以得到有效数据;
[0014]将所述有效数据根据五元组信息划分为多个会话;
[0015]将各所述会话的数据包长度进行统一,并将每个所述会话的数据包形成二维矩阵;
[0016]将所述二维矩阵转换为灰度图片。
[0017]在一些实施例中,训练所述特征提取模型,具体包括:
[0018]将已知协议样本转换得到的灰度图片样本进行数据增强处理,以得到增强图片样
本;
[0019]将所述增强图像样本输入到神经网络结构中进行训练,得到初始模型;
[0020]对所述初始模型进行迭代优化,并在达到预设收敛值时停止迭代,以得到所述特征提取模型。
[0021]在一些实施例中,将已知协议样本转换得到的灰度图片样本进行数据增强处理,以得到增强图片样本,具体包括:
[0022]对所述灰度图片样本依次进行随机裁剪到、随机旋转、随机水平翻转、中心裁剪、转化成张量和正规化处理,以得到数据增强处理后的增强图像样本。
[0023]在一些实施例中,所述神经网络结构为ResNet

50网络。
[0024]在一些实施例中,所述预存的聚类算法为Kmeans++算法。
[0025]本专利技术还提供一种基于多协议混合场景的未知协议聚类系统,所述系统包括:
[0026]数据获取单元,用于获取待处理的未知协议的流量数据;
[0027]数据转换单元,用于利用特征工程将所述流量数据转换为灰度图片;
[0028]特征提取单元,用于基于预先训练的特征提取模型,对所述灰度图片进行特征提取,以得到特征向量;
[0029]结果输出单元,用于基于预存的聚类算法对所述特征向量进行聚类,以得到聚类结果;
[0030]其中,所述特征提取模型是根据已知协议样本转换得到的灰度图片样本进行训练得到的。
[0031]本专利技术还提供一种智能终端,所述智能终端包括:数据采集装置、处理器和存储器;
[0032]所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行如上所述的方法。
[0033]本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行如上所述的方法。
[0034]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述方法的步骤。
[0035]本专利技术所提供的基于多协议混合场景的未知协议聚类方法和系统,通过获取待处理的未知协议的流量数据,利用特征工程将所述流量数据转换为灰度图片;基于预先训练的特征提取模型,对所述灰度图片进行特征提取,以得到特征向量;基于预存的聚类算法对所述特征向量进行聚类,以得到聚类结果。实现了快速、准确的分析未知协议流量数据,舍弃了利用指纹特征的数据帧定界方法和基于关联规则识别特定环境下未知协议的方法,利用预训练模型与无监督学习相结合实现未知协议的聚类,从而更加准确、快速实现对未知协议的聚类分析,解决了现有技术中在多协议混合场景下,未知协议聚类准确性较差、效率较低的问题。
附图说明
[0036]为了更清楚地说明本专利技术的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅
仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
[0037]本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本专利技术所能产生的功效及所能达成的目的下,均应仍落在本专利技术所揭示的
技术实现思路
得能涵盖的范围内。
[0038]图1为本专利技术所提供的基于多协议混合场景的未知协议聚类方法的流程示意图之一;
[0039]图2为本专利技术所提供的基于多协议混合场景的未知协议聚类方法的流程示意图之二;
[0040]图3为本专利技术所提供的基于多协议混合场景的未知协议聚类方法的流程示意图之三;
[0041]图4为本专利技术所提供的基于多协议混合场景的未知协议聚类系统的结构框图。
具体实施方式
[0042]以下由特定的具体实施例说明本专利技术的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本专利技术的其他优点及功效,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0043]为了解决现有技术中通讯过程遇到的未知协议流量无法进行快速和准确聚类的问题,本专利技术提供了一种基于多协议混合场景的未知协议聚类方法和系统,其利用预训练模型思想,采用深度学习与机器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多协议混合场景的未知协议聚类方法,其特征在于,所述方法包括:获取待处理的未知协议的流量数据;利用特征工程将所述流量数据转换为灰度图片;基于预先训练的特征提取模型,对所述灰度图片进行特征提取,以得到特征向量;基于预存的聚类算法对所述特征向量进行聚类,以得到聚类结果;其中,所述特征提取模型是根据已知协议样本转换得到的灰度图片样本进行训练得到的。2.根据权利要求1所述的基于多协议混合场景的未知协议聚类方法,其特征在于,利用特征工程将所述流量数据转换为灰度图片,具体包括:对所述流量数据进行清洗,以得到有效数据;将所述有效数据根据五元组信息划分为多个会话;将各所述会话的数据包长度进行统一,并将每个所述会话的数据包形成二维矩阵;将所述二维矩阵转换为灰度图片。3.根据权利要求2所述的基于多协议混合场景的未知协议聚类方法,其特征在于,训练所述特征提取模型,具体包括:将已知协议样本转换得到的灰度图片样本进行数据增强处理,以得到增强图片样本;将所述增强图像样本输入到神经网络结构中进行训练,得到初始模型;对所述初始模型进行迭代优化,并在达到预设收敛值时停止迭代,以得到所述特征提取模型。4.根据权利要求3所述的基于多协议混合场景的未知协议聚类方法,其特征在于,将已知协议样本转换得到的灰度图片样本进行数据增强处理,以得到增强图片样本,具体包括:对所述灰度图片样本依次进行随机裁剪到、随机旋转、随机水平翻转、中心裁剪、转化成张量和正规化处理,以得到数据增强处理后的增强图像样...

【专利技术属性】
技术研发人员:任玉坤李丹丹
申请(专利权)人:北京观成科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1