一种基于扩展前缀树的私有协议报文格式推断方法技术

技术编号：17211824 阅读：146 留言：0更新日期：2018-02-07 23:03

本发明专利技术提供一种基于扩展前缀树的私有协议报文格式推断方法，包括以下步骤：报文预处理、协议关键词提取、报文结构与语义推断、协议格式合并。本发明专利技术针对现有的基于网络流量的报文格式推断方法时间复杂度高、准确率偏低的问题，采用N‑gram分词方法，基于点间互信息准确判定私有协议中的协议关键词，以扩展前缀树描述报文所对应的协议关键词序列，实施分段的多序列比对，降低序列比对的计算开销，提高比对结果的准确性。此外，针对网络协议灵活性强的特点，通过有效的格式合并，减少冗余的报文格式，增强推断结果的实用性。

An inference method for private protocol message format based on extended prefix tree

The invention provides a private protocol message format inference method based on extended prefix tree, including the following steps: message preprocessing, protocol key extraction, message structure and semantic inference, protocol format merging. According to the invention time estimation method of network traffic based on the packet format of high complexity and low accuracy of the existing problems, using N gram segmentation method, the mutual information between points accurately determine the private protocol in protocol based on keywords, to extend the prefix tree description keyword sequence corresponding to the message protocol, the implementation of multiple sequence alignment segments to reduce the computational overhead, sequence alignment, improve the accuracy of the results. In addition, in view of the characteristics of the flexibility of the network protocol, an effective format is merged to reduce the redundant message format and enhance the practicability of the inference results.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于扩展前缀树的私有协议报文格式推断方法
本专利技术涉及网络
，尤其是一种基于扩展前缀树的私有协议报文格式推断方法，该方法能够依据同类报文在结构和语义上的相似性，推断私有协议的报文格式。
技术介绍
协议规范是对网络协议语法、语义以及同步等信息的具体描述，在网络安全领域扮演着重要角色。僵尸网络中，攻击者使用C&C(CommandandControl)协议来控制存在漏洞的主机实施分布式拒绝服务攻击，网络管理员需要依据C&C协议规范来发现和分析僵尸网络。入侵检测领域，需要基于协议规范从繁杂的网络流量中辨识出恶意流量。在模糊测试过程中，需要利用协议规范指导测试用例生成以实现高效的自动化漏洞挖掘。实际的网络环境中有大量私有协议存在。所谓私有协议，就是协议规范没有进行公开的网络协议。例如，微软使用的网络文件共享SMB(ServerMessageBlock)协议，Oracle数据库访问的TNS(TransparenceNetworkSubstrate)协议以及微信、QQ、飞秋等即时通信软件所使用的协议都没有公开协议细节。大量恶意软件也会采用自定义的私有协议实现网络通信。这些私有协议在网络中的广泛使用，给网络安全防护带来了极大的阻碍。对于私有协议而言，目前主要通过协议逆向分析方法获取其协议规范。依据分析对象的不同，逆向分析方法可分为两类：基于网络流量的分析方法和基于指令执行轨迹的分析方法。基于网络流量的分析方法对截获的网络数据流进行分析，通过生物信息学、统计分析、数据挖掘等方法，对报文样本进行聚类分析，依据相同格式报文在取值上的相似性，分析获取协...
一种基于扩展前缀树的私有协议报文格式推断方法

【技术保护点】
一种基于扩展前缀树的私有协议报文格式推断方法，其特征在于，包括步骤(1)至(4)：(1)报文预处理：从原始网络数据流中提取出所有报文，形成报文集合；(2)协议关键词提取：对报文集合中的每条报文进行N‑gram分词处理，得到所有在报文集合中出现过的长度为N的字符串；将在报文集合中出现的频率超过预设频率阈值的所有字符串选取出来作为候选关键词；采用点间互信息衡量相邻候选关键词的相关程度，将相关程度大于预设相关阈值的相邻候选关键词实施合并，合并的结果作为协议关键词；确定所有协议关键词后，将报文集合中的所有报文转换为协议关键词序列，使每个报文由其所包含的协议关键词表示；(3)报文结构与语义推断：构建扩展前缀树，按顺序将每个协议关键词序列中的协议关键词作为叶子节点插入扩展前缀树中；扩展前缀树中从起点开始到叶子节点结束的每条路径代表一种报文格式；确定扩展前缀树中的所有的边，并对每条边对应的报文片段采用Needleman‑Wunsch多序列比对算法进行比对，得到相应报文片段的格式信息；综合每条边的Needleman‑Wunsch多序列比对结果，得到扩展前缀树所包含的所有报文的格式信息；(4)协议格式合...

【技术特征摘要】
1.一种基于扩展前缀树的私有协议报文格式推断方法，其特征在于，包括步骤(1)至(4)：(1)报文预处理：从原始网络数据流中提取出所有报文，形成报文集合；(2)协议关键词提取：对报文集合中的每条报文进行N-gram分词处理，得到所有在报文集合中出现过的长度为N的字符串；将在报文集合中出现的频率超过预设频率阈值的所有字符串选取出来作为候选关键词；采用点间互信息衡量相邻候选关键词的相关程度，将相关程度大于预设相关阈值的相邻候选关键词实施合并，合并的结果作为协议关键词；确定所有协议关键词后，将报文集合中的所有报文转换为协议关键词序列，使每个报文由其所包含的协议关键词表示；(3)报文结构与语义推断：构建扩展前缀树，按顺序将每个协议关键词序列中的协议关键词作为叶子节点插入扩展前缀树中；扩展前缀树中从起点开始到叶子节点结束的每条路径代表一种报文格式；确定扩展前缀树中的所有的边，并对每条边对应的报文片段采用Needleman-Wunsch多序列比对算法进行比对，得到相应报文片段的格式信息；综合每条边的Needleman-Wunsch多序列比对结果，得到扩展前缀树所包含的所有报文的格式信息；(4)协议格式合并：对步骤(3)获取的报文格式信息进行合并，包括：对字段前后位置可变的同类报文进行格式合并，以及对协议关键词属于枚举类型的同类报文进行格式合并。2.根据权利要求1所述的一种基于扩展前缀树的私有协议报文格式推断方法，其特征在于，所述步骤(1)中报文预处理的具体步骤为：针对连续的网络数据流，先以会话为粒度进行分割，将通信实体间的独立会话分离出来；再对每一次独立会话进行报文定界，从独立会话中分离出单个协议报文。3.根据权利要求1所述的一种基于扩展前缀树的私有协议报文...

【专利技术属性】
技术研发人员：洪征，田益凡，吴礼发，张洪泽，李华波，周振吉，薛迪，黄康宇，
申请(专利权)人：中国人民解放军陆军工程大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人