二进制协议状态提取方法、系统、存储介质和电子设备技术方案

技术编号:36448717 阅读:19 留言:0更新日期:2023-01-25 22:44
本发明专利技术涉及协议逆向工程技术领域,尤其涉及一种二进制协议状态提取方法、系统、存储介质和电子设备,方法包括:将每个待提取的二进制协议数据,进行预处理,得到多个具有相同的规范数据格式的二进制协议数据;利用训练好的自编码器模型,得到每个二进制协议数据的特征信息;利用UMAP降维算法,得到每个特征信息对应的二维特征信息;在无先验知识的情况下,利用改进的DBSCAN聚类算法对所有二维特征信息进行聚类,能够准确将有状态协议的同状态数据划分为一簇,然后根据多簇能够构建状态机,结合对有状态协议的语法分析和语义分析,能够得到每条待提取的二进制协议数据的具体内容,还能够将推出有状态协议的具体格式。能够将推出有状态协议的具体格式。能够将推出有状态协议的具体格式。

【技术实现步骤摘要】
二进制协议状态提取方法、系统、存储介质和电子设备


[0001]本专利技术涉及协议逆向工程
,尤其涉及一种二进制协议状态提取 方法、系统、存储介质和电子设备。

技术介绍

[0002]在互联网上保障海量信息的高效、正确传输需要通信的各方遵循提前约 定好的某些规定,即网络协议,它的本质就是规则。随着协议应用领域的细 化及人们对网络安全的重视度提升,网络协议数量大规模增长,不仅包括对 原有的协议进行内容扩充,更多地是产生全新定义的协议。对大量涌现的网 络协议进行分析是网络空间安全领域的重要任务,也是互联网时代安全发展 的必要工作。网络协议分析根据分析对象可分为标准协议、私有协议和未知 协议。在工业控制、军事通信、金融信息等特定领域中,大量采用未知协议, 无法得知协议的具体数据、内容及其含义。
[0003]协议分析技术主要包括对已知协议的识别与分析及对未知协议的逆向 分析。已知协议通常具备公开的规范标准,通过协议特征,如格式特征、端 口号等,对协议进行识别及分析;而未知协议则因其规范未知的特点,难以 进行识别及分析。协议逆向工程即指在没有任何先验知识的情况下,通过协 议报文或执行过程分析推导出相关特征,对未知协议的分析有着重大意义。 现有协议分析技术多数要求对协议规范有一定程度的了解,依靠人工知识, 不适用于私有协议、未知协议。
[0004]协议相关特征包括协议的三要素,即语法、语义和状态机。其中,状态 机描述了有状态协议不同状态间的转移规则,协议状态机逆向是有状态协议 逆向分析中必不可少的一部分,通常可在聚类后的结果上,依赖推断算法构 建协议状态机。现有技术仅包括对混合报文数据进行协议层面的区分,如何 高效、准确且不依靠人工知识地完成同一协议的不同状态数据报文区分仍然 有待实现。专利“一种零知识下二进制协议的混合数据帧聚类”(公开号: CN114722961A)在零知识下对二进制协议的混合数据进行了高效地区分, 但该方法仅完成了协议识别,未考虑到具体协议的不同状态报文间的区别。 同时,基于K

Means的聚类算法需要提供簇数值,在协议规范未知的情况下, 亦不明确其状态数量,极大程度降低了协议状态聚类的准确度。

技术实现思路

[0005]本专利技术所要解决的技术问题是针对现有技术的不足,提供了一种二进制 协议状态提取方法、系统、存储介质和电子设备。
[0006]本专利技术的一种二进制协议状态提取方法的技术方案如下:
[0007]将每个待提取的二进制协议数据,进行预处理,得到多个具有相同的规 范数据格式的二进制协议数据,其中,所有待提取的二进制协议数据基于相 同的有状态协议;
[0008]利用训练好的自编码器模型,得到每个二进制协议数据的特征信息;
[0009]利用UMAP降维算法对每个特征信息进行降维处理,得到每个特征信 息对应的二
维特征信息;
[0010]利用改进的DBSCAN聚类算法对所有二维特征信息进行聚类,将所述 有状态协议的同状态数据划分为一簇,得到多簇。
[0011]本专利技术的一种二进制协议状态提取方法的有益效果如下:
[0012]在无先验知识的情况下,利用改进的DBSCAN聚类算法对所有二维特 征信息进行聚类,能够准确将有状态协议的同状态数据划分为一簇,然后根 据多簇能够构建状态机,结合对有状态协议的语法分析和语义分析,能够得 到每条待提取的二进制协议数据的具体内容,还能够将推出有状态协议的具 体格式,也就是说,将未知的有状态协议转为已知。
[0013]本专利技术的一种二进制协议状态提取系统的技术方案如下:
[0014]包括预处理模块、获取模块、降维处理模块和聚类模块;
[0015]所述预处理模块用于:将每个待提取的二进制协议数据,进行预处理, 得到多个具有相同的规范数据格式的二进制协议数据,其中,所有待提取的 二进制协议数据基于相同的有状态协议;
[0016]所述获取模块用于:利用训练好的自编码器模型,得到每个二进制协议 数据的特征信息;
[0017]所述降维处理模块用于:利用UMAP降维算法对每个特征信息进行降 维处理,得到每个特征信息对应的二维特征信息;
[0018]所述聚类模块用于:利用改进的DBSCAN聚类算法对所有二维特征信 息进行聚类,将所述有状态协议的同状态数据划分为一簇,得到多簇。
[0019]本专利技术的一种二进制协议状态提取系统的有益效果如下:
[0020]利用改进的DBSCAN聚类算法对所有二维特征信息进行聚类,能够准 确将有状态协议的同状态数据划分为一簇,然后根据多簇能够构建状态机, 结合对有状态协议的语法分析和语义分析,能够得到每条待提取的二进制协 议数据的具体内容,还能够将推出有状态协议的具体格式,也就是说,将未 知的有状态协议转为已知。
[0021]本专利技术的一种存储介质,所述存储介质中存储有指令,当计算机读取所 述指令时,使所述计算机执行上述任一项所述的一种二进制协议状态提取方 法。
[0022]本专利技术的一种电子设备,包括处理器和上述的存储介质,所述处理器执 行所述存储介质中的指令。
附图说明
[0023]图1为本专利技术实施例的一种二进制协议状态提取方法的流程示意图;
[0024]图2为自编码器模型的结构示意图;
[0025]图3为本专利技术实施例的一种二进制协议状态提取系统的结构示意图。
具体实施方式
[0026]如图1所示,本专利技术实施例的一种二进制协议状态提取方法,包括如下 步骤:
[0027]S1、将每个待提取的二进制协议数据进行预处理,得到多个具有相同的 规范数据格式的二进制协议数据,其中,所有待提取的二进制协议数据基于 相同的有状态协议;
[0028]其中,二进制协议数据指用二进制表示的网络流量数据;
[0029]不同的有状态协议具有不同的协议状态,二进制协议状态指有状态协议 所具有的不同状态。
[0030]S2、利用训练好的自编码器模型,得到每个二进制协议数据的特征信息;
[0031]其中,特征信息具体指:通过降低二进制协议数据的数据维度,得到一 些能够更精简、更简单的用于表示二进制协议数据的特征,具体可用矩阵形 式进行表示。也就是说,通过训练好的自编码器模型对“二进制协议数据
”ꢀ
进行数据压缩,提取出最具代表性的信息,即特征信息,具体可用矩阵形式 进行表示。训练好的自编码器模型的目的就是:在保证二进制协议数据的重 要特征不丢失的情况下,降低输入信息即二进制协议数据的数据维度。
[0032]S3、利用UMAP降维算法对每个特征信息进行降维处理,得到每个特 征信息对应的二维特征信息;
[0033]其中,由于每个二进制协议数据的特征信息的数据维度依然较高,因此, 用UMAP降维算法对每个特征信息进行降维处理,得到具有二维数据的特 征信息,即二维特征信息;
[0034]S4、利用改进的DBSCAN聚类算法对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种二进制协议状态提取方法,其特征在于,包括:将每个待提取的二进制协议数据,进行预处理,得到多个具有相同的规范数据格式的二进制协议数据,其中,所有待提取的二进制协议数据基于相同的有状态协议;利用训练好的自编码器模型,得到每个二进制协议数据的特征信息;利用UMAP降维算法对每个特征信息进行降维处理,得到每个特征信息对应的二维特征信息;利用改进的DBSCAN聚类算法对所有二维特征信息进行聚类,将所述有状态协议的同状态数据划分为一簇,得到多簇。2.根据权利要求1所述的一种二进制协议状态提取方法,其特征在于,所述训练好的自编码器模型的训练过程包括:对每个样本二进制协议数据进行预处理,得到多个具有相同的所述规范数据格式的样本二进制协议数据,并划分为训练集和评估集;构建自编码器模型,设置所述自编码器模型的损失函数,并基于所述训练集和评估集,对所述自编码器模型进行训练,得到所述训练好的自编码器模型。3.根据权利要求2所述的一种二进制协议状态提取方法,其特征在于,构建所述自编码器模型,包括:设置所述自编码器模型的编码器的稠密层的数量,以及设置所述自编码器模型的解码器的稠密层的数量;设置自编码器模型的编码器的各稠密层的输入数据维度和输出数据维度,以及设置所述自编码器模型的解码器的各稠密层的输入数据维度和输出数据维度。4.根据权利要求2所述的一种二进制协议状态提取方法,其特征在于,将所有具有相同的所述规范数据格式的样本二进制协议数据划分为训练集和评估集,包括:将所有具有相同的所述规范数据格式的样本二进制协议数据随机划分为训练集和评估集。5.一种二进制协议状态提取系统,其特征在于,包括预处理模块、获取模块、降维处理模块和聚类模块;所述预处理模块用于:将每个待提取的二进制协议数据,进行预处理,得到多个具有相同的规范数据格式的二进制协议数据,其中,所有待提取...

【专利技术属性】
技术研发人员:陶玥欣孔晴
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1