The invention provides a protocol format inference method based on closed sequence pattern mining, which comprises the following steps: packet preprocessing, protocol keyword recognition, keyword sequence extraction, and message structure inference. The invention adopts two-stage closed pattern mining strategy to implement closed sequence pattern mining for communication messages, solves the problems of huge memory consumption and long calculation time of existing closed sequence pattern mining algorithms, and avoids the influence of noise in message samples, accurately identifies protocol keywords and generates the sequence containing keywords. The key sequence of order relations. On the basis of keyword sequence information, the sequence relation, parallel relation and hierarchical relation between protocol keywords are analyzed and inferred, and the accurate message structure information is obtained.
【技术实现步骤摘要】
一种基于闭合序列模式挖掘的协议格式推断方法
本专利技术涉及网络
,具体而言涉及一种分析协议实体程序的输入输出报文,依据同种类型的报文在结构和语义上的相似性,推断协议报文格式的方法。
技术介绍
网络协议作为网络通信的核心要素,它的质量直接关系到通信的稳定性、可靠性和安全性。对网络协议进行分析,发掘网络协议及其具体实现程序中存在的安全漏洞,并及时实施安全防护,有助于减少安全问题的发生。如果一种网络协议的协议规范是已知的,则对其进行分析处理相对简单,例如著名的开源软件Wireshark可以对2000余种已知协议进行解析,能够获取协议中大量有价值的信息。但是,对于协议规范没有公开的网络协议,Wireshark等协议分析软件则无能为力。在这种情况下,一些研究人员尝试利用协议逆向分析技术来获取未知协议的协议规范。协议逆向分析技术以协议格式和协议状态机的获取为目标。协议格式获取主要推断协议关键字、报文结构以及字段语义信息。协议状态机获取通常是在协议格式信息基础上,识别整个协议运行过程中存在的协议状态并分析协议状态之间的转换关系。依据研究对象的不同,协议逆向分析通常分为基于执行轨迹的逆向分析技术与基于网络流量的逆向分析技术两类。基于执行轨迹的逆向分析方法通过监视协议实体对报文的处理过程以及各报文片段的使用方式获得报文格式信息。基于网络流量的逆向分析基于这样一种观察:每个协议报文都是协议规范的具体实例,相同类型协议报文具有相似性,这种相似性能够反映报文格式中相对稳定的部分,基于这种相似性可以推断协议报文格式。与基于执行轨迹逆向技术相比,基于网络流量协议逆向技术的收集分 ...
【技术保护点】
1.一种基于闭合序列模式挖掘的协议格式推断方法,其特征在于,包括以下步骤:(1)报文预处理:将报文样本按照
【技术特征摘要】
1.一种基于闭合序列模式挖掘的协议格式推断方法,其特征在于,包括以下步骤:(1)报文预处理:将报文样本按照<源IP地址,目的IP地址,源端口,目的端口,传输层协议类型>五元组划分为若干个会话,而后针对会话提取协议报文,进而将同种类型的报文聚为一类便于分析。(2)协议关键字识别及关键字序列提取:实施两阶段闭合序列模式挖掘方法,其中第一阶段为分割阶段,针对汇聚了同种类型报文的报文组,在报文组中基于闭合序列模式挖掘提取闭合频繁邻接段,并采用关键字识别策略判断这些闭合频繁邻接段是否为协议关键字。第二阶段为模式挖掘阶段,基于第一阶段推断为关键字的闭合频繁邻接段,通过闭合序列模式挖掘算法生成由多个关键字组成的闭合频繁序列,最终得到一个报文组内所有的闭合频繁序列。(3)报文结构推断:以提取到的关键字序列为基础区分不同关键字之间的顺序、并列以及层次关系,获得详细的报文结构信息。前述报文预处理阶段的工作流程如下:将报文样本按照<源IP地址,目的IP地址,源端口,目的端口,传输层协议类型>五元组划分为会话,每个报文以各自在会话中的先后顺序标记序号,具有相同序号的报文作为一类。由于网络传输中可能出现报文丢包、乱序等因素,报文序号相同并不能保证报文是相同类型的,因此还需提取报文载荷,通过计算报文载荷之间的相似度找出类型相同的报文,将同种类型的报文聚集在一个报文组内。通过以上处理,一个报文组中的报文类型相同,具有相同的报文特征,可以作为下一阶段分析的基础。前述协议关键字识别及关键字序列提取阶段的工作流程如下:实施两阶段闭合序列模式挖掘方法,其中第一阶段为分割阶段,针对汇聚了同种类型报文的报文组,在报文组中基于闭合序列模式挖掘提取闭合频繁邻接段,并采用关键字识别策略判断这些闭合频繁邻接段是否为关键字。分割阶段第一步的工作是生成候选字符串。候选字符串从报文组中提取,利用n-gram模型将报文划分成字符串,字符串中的字符保持原有的顺序和邻接属性。分割阶段第二步的工作是候选字符串剪枝。报文组中的报文被离散化为字符串,用于...
【专利技术属性】
技术研发人员:吴礼发,张洪泽,丁兆锟,谢波,廖赟,
申请(专利权)人:南京天控信息技术有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。