当前位置: 首页 > 专利查询>清华大学专利>正文

基于字典树的未知协议帧结构识别方法及装置制造方法及图纸

技术编号:34632104 阅读:43 留言:0更新日期:2022-08-24 15:04
本公开涉及一种基于字典树的未知协议帧结构识别方法及装置,所述方法包括:从待解析的网络数据流中,截取出多个第一序列;根据所述多个第一序列,建立第一字典树,并确定所述第一字典树中的各个结点的置信度及熵;根据所述第一字典树及所述各个结点的置信度及熵,确定目标序列;根据所述目标序列在所述网络数据流中的位置信息,确定所述网络数据流的协议帧结构。根据本公开的实施例对未知协议的网络数据流进行协议解析,不仅能够提高帧头的识别能力,而且能够识别出未知协议的帧结构。而且能够识别出未知协议的帧结构。而且能够识别出未知协议的帧结构。

【技术实现步骤摘要】
基于字典树的未知协议帧结构识别方法及装置


[0001]本公开涉及网络安全
,尤其涉及一种基于字典树的未知协议帧结构识别方法及装置。

技术介绍

[0002]随着互联网的快速发展,网络安全已经成为国家安全的一项重要内容。网络数据基于网络协议进行传输,也就是说,在互联网中传输数据时,需要根据网络协议栈,对数据进行层层封装后,才能通过网络设备正确传输。为了抓取网络中的数据进行分析研究,对网络协议的解析就必不可少,因此,协议解析是网络安全领域的一项重要工作。
[0003]目前的协议解析主要是对已知协议的解析,即根据已知协议公开的协议格式来完成协议的解析。而在网络安全领域的实际应用中,通常需要对未知协议进行解析,未知协议通常因为协议格式不公开等原因,无法通过常规的协议解析方式来完成解析。
[0004]相关技术中,对未知协议进行解析时,通常首先寻找帧头中的标志字节(例如固定取值的字节),并基于标志字节对未知协议的网络数据流进行帧切分,然后通过机器学习、聚类等方式,对切分后的每一帧进行未知协议的分类及识别。然而,该方式对没有明显标志字节的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于字典树的未知协议帧结构识别方法,其特征在于,所述方法包括:从待解析的网络数据流中,截取出多个第一序列;根据所述多个第一序列,建立第一字典树,并确定所述第一字典树中的各个结点的置信度及熵;根据所述第一字典树及所述各个结点的置信度及熵,确定目标序列;根据所述目标序列在所述网络数据流中的位置信息,确定所述网络数据流的协议帧结构。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一字典树及所述各个结点的置信度及熵,确定目标序列,包括:根据预设的第一置信度阈值、熵阈值、所述各个结点的置信度及熵,对所述第一字典树进行剪枝操作,得到第二字典树;对所述第二字典树进行长序列合并操作,得到第三字典树;对所述第三字典树进行相似序列合并操作,得到第四字典树;根据所述第四字典树中的各个叶子结点所表示的第二序列在所述网络数据流中的位置信息,对所述第四字典树进行剪枝操作,得到第五字典树;将所述第五字典树中的各个叶子结点所表示的第三序列,确定为目标序列。3.根据权利要求2所述的方法,其特征在于,所述根据预设的第一置信度阈值、熵阈值、所述各个结点的置信度及熵,对所述第一字典树进行剪枝操作,得到第二字典树,包括:对于所述第一字典树中的任一结点,在所述结点的置信度小于所述第一置信度阈值的情况下,或者,在所述结点的熵大于或等于预设的熵阈值的情况下,删除所述结点,得到第二字典树。4.根据权利要求2所述的方法,其特征在于,所述对所述第二字典树进行长序列合并操作,得到第三字典树,包括:确定所述第二字典树中的各个叶子结点所表示的第四序列;对于任一第四序列,判断所述第四序列与第五序列是否存在公共子序列,所述第五序列为除所述任一第四序列之外的其他任一第四序列;在存在所述公共子序列、所述公共子序列为所述第四序列的后缀且所述公共子序列为所述第五序列的前缀的情况下,确定所述第五序列基于所述公共子序列的置信度;在所述第五序列基于所述公共子序列的置信度大于或等于预设的第二置信度阈值的情况下,将所述第二字典树中的所述第四序列与所述第五序列进行合并,得到第三字典树。5.根据权利要求2所述的方法,其特征在于,所述对所述第三...

【专利技术属性】
技术研发人员:谷源涛罗春砜
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1