一种基于多序列比对的在线协议格式推断方法技术

技术编号:18767117 阅读:276 留言:0更新日期:2018-08-25 12:50
本发明专利技术公开了一种基于多序列比对的在线协议格式推断方法,首先将协议已知部分的内容进行标记,然后对于在线流量采用增量分析的方式,将捕获的流量按照一定的数目进行分组,对于每个分组采用渐进多序列比对提取协议的格式,然后对相邻的分组结果进行分析,如果解析结果不同则对这两个连续分组中的所有分组进行分析,作为结果,直到分析结束。本方法既可满足在线协议分析的时间要求,又能保证协议分析的效果。

【技术实现步骤摘要】
一种基于多序列比对的在线协议格式推断方法
本专利技术涉及在线协议格式推断方法
,尤其涉及一种基于多序列比对的在线协议格式推断方法。
技术介绍
协议逆向工程是指在没有协议描述的情况下,通过对协议实体的网络输入输出、系统行为和指令执行流程进行监控和分析,提取协议格式以及协议状态机信息的过程。随着工控网络安全日益引起国家有关部门的重视,工控协议的安全分析日益受到国家相关部门的重视,成为学术研究的重点,协议逆向工程广泛运用于如入侵检测、漏洞挖掘、协议重用等。协议逆向分析技术主要包括协议格式提取和协议状态机推断两个阶段。对于未知协议而言,协议格式是状态标注不可缺少的依据,因此协议格式提取是协议状态机推断的前提。根据分析对象的不同,协议格式提取技术又可分为基于网络流量的分析技术和基于执行轨迹的分析技术两类。相对于执行轨迹的分析方法,基于流量的分析技术不需要依赖于通信双方的协作,而仅需要获取网络流量,实施更加方便和可行。基于流量的分析方法大致可以分为里3类:基于序列比对的分析方法和非序列比对的方法。最早的序列比对方法是MarshallBeddoe于2004年启动的PI项目(ProtocolInformationProject),通过引入生物信息学的序列比对算法,来推断目标协议的结构。与PI项目不同,RolePlayer不对协议的完整结构进行分析,其重点在于识别报文结构中用户参数、状态标识,长度等动态字段。为了避免对样本集的过分类,Cui等人提出了以递归分类为核心的协议逆向方案Discoverer,通过分词实现初始字段划分并以字段为基元进行序列比对,Discoverer还能够识别格式标识、长度、偏移和cookie等语义,但没有考虑到状态机信息的提取。非序列比对的方法引入语音识别领域的n-gram语言模型和隐马尔科夫模型来进行协议格式推断,但此类方法只能获取报文中部分字段的语义特征,难以得到完整的协议格式,并且忽略了字段之间的取值约束。相比较而言,渐进多序列比对算法能够对整个报文域进行划分并提取特征,更具实用价值。上述协议格式提取的算法虽然具有较好的精度,但是往往需要耗费很长的时间,无法适应在线协议分析的需要。
技术实现思路
本专利技术的目的就在于为了解决上述问题而提供一种基于多序列比对的在线协议格式推断方法。本专利技术通过以下技术方案来实现上述目的:本专利技术包括如下步骤:步骤S1,按照网络流五元组的方法从网络中提取特定协议交互的数据流,将网络分组划分为不同的子流,每组包括N个分组;步骤S2:对每个分组采用渐进多序列比对方法进行分析得到协议格式报文;步骤S3:对前M个分组采用渐进多序列比对并计算平均时间,设时延阈值为δt,如果0.5δt<<δt则接受此分组划分;当<0.5δt将分组数目减半,则将分组大小加倍,当>δt将分组数目减半;步骤S4:对相邻分组的协议分析结果进行对比,如果相同则接受,否则合并两个分组采用渐进多序列比对方法进行分析,输出分析结果。本专利技术优选地,根据步骤S1,设从网络中获取的流量表示为Flow={p0,p1,…,pw},则将其中每N个子流划分为一个组,Flow={flow0,flow1,…},其中flow0={p0,p1,…,pN-1},flow0={pN,pN+1,…,p2N-1}。本专利技术优选地,根据步骤S2,对一个分组flowi通过渐进多序列比对分析获得每个分组的协议格式PFGi,并且记录处理该分组的时间ti。本专利技术优选地,根据步骤S2,渐进多序列比对一般包括以下步骤:步骤a,计算距离矩阵,对于任意一个子流flowi={pi*N,pi*N+1,…,pi*N-1}中的任何两个序列p、q,采用Smith-Waterman算法,找出每两个样本之间的局部最佳比对,并据此计算出样本之间的相似度,构造样本集的距离矩阵D。其中,Dpq表示样本序列p和样本序列q之间的距离;步骤b,构造、分割引导树,采用非加权成对群算术平均法(UnweightedPair-GroupMethodwithArithmeticmeans,UPGMA)计算子类间的距离,逐步将距离最小的子类进行合并,子类Ci与Cj的距离可由下式计算:由于协议可能存在多种格式类型,如果在渐近多序列比对时强行对齐,可能在样本中加入大量的无效填充位,为了提高序列比对的准确度,设定距离阈值,在dij过大时即停止合并,一般阈值为0.5,最终分割得到多个引导树,在引导树中,叶节点表示原始样本序列,中间节点表示由子节点进行双序列比对得到的对齐序列。步骤c,执行渐近多序列比对,对引导树进行后序遍历,采用Needleman-Wunsch算法进行双序列动态规划比对,并将未对齐的字节填充。在构造了多个引导树时,渐进多序列比对将得到多个样本子集。本专利技术优选地,对前M个分组采用渐进多序列比对并计算平均时间,其中一般M为5,设时延阈值为δt(为2分钟),如果0.5δt<<δt则接受此分组划分;设下次划分的分组数目为N’,当<0.5δt时,N’=2*N,当>δt将时,N’=N/2。本专利技术优选地,对于第i个分组flowi的分析结果PFGi,如果PFGi=PFGi-1,则继续处理,第i+1个分组,否则,将{flowi-1,flowi}作为步骤二的输入,将算法结果作为PFGi,直到所有分组处理完毕,则将最后一个格式解析结果作为整个协议的终推断格式。本专利技术的有益效果在于:本专利技术提供一种基于多序列比对的在线协议格式推断方法,首先将协议已知部分的内容进行标记,然后对于在线流量采用增量分析的方式,将捕获的分组按照一定的数目进行分组,对于每个分组采用渐进多序列比对提取协议的格式,然后对相邻的分组结果进行分析,如果解析结果不同则对这两个连续分组中的所有分组进行分析,作为结果,直到分析结束。本方法既可满足在线协议分析的时间要求,又能保证协议分析的效果。附图说明图1是本专利技术所述一种基于多序列比对的在线协议格式推断方法的流程示意图。具体实施方式下面结合附图对本专利技术作进一步说明:如图1所示:本专利技术包括如下步骤:步骤S1,按照网络流五元组的方法从网络中提取特定协议交互的数据流,将网络数据流划分为不同的子流,每组包括N个分组;设从网络中获取的流量表示为Flow={p0,p1,…,pw},则将其中每N个子流划分为一个组,Flow={flow0,flow1,…},Flow={flow0,flow1,…},其中flow0={p0,p1,…,pN-1},flow0={pN,pN+1,…,p2N-1}。步骤S2:对每组采用渐进多序列比对方法进行分析得到协议格式报文;对一组flowi通过渐进多序列比对分析获得每个分组的协议格式PFGi,并且记录处理该分组的时间ti,渐进多序列比对一般包括以下步骤:步骤a,计算距离矩阵,对于任意一个子流flowi={pi*N,pi*N+1,…,pi*N-1}中的任何两个序列p、q,采用Smith-Waterman算法,找出每两个样本之间的局部最佳比对,并据此计算出样本之间的相似度,构造样本集的距离矩阵D。其中,Dpq表示样本序列p和样本序列q之间的距离;步骤b,构造、分割引导树,本文档来自技高网
...

【技术保护点】
1.一种基于多序列比对的在线协议格式推断方法,其特征在于,包括如下步骤:步骤S1,按照网络流五元组的方法从网络中提取特定协议交互的数据流,将网络分组划分为不同的子流,每组包括N个分组;步骤S2:对每个分组采用渐进多序列比对方法进行分析得到协议格式报文;步骤S3:对前M个分组采用渐进多序列比对并计算平均时间,设时延阈值为δt,如果0.5δt

【技术特征摘要】
1.一种基于多序列比对的在线协议格式推断方法,其特征在于,包括如下步骤:步骤S1,按照网络流五元组的方法从网络中提取特定协议交互的数据流,将网络分组划分为不同的子流,每组包括N个分组;步骤S2:对每个分组采用渐进多序列比对方法进行分析得到协议格式报文;步骤S3:对前M个分组采用渐进多序列比对并计算平均时间,设时延阈值为δt,如果0.5δt<<δt则接受此分组划分;当<0.5δt将分组数目减半,则将分组大小加倍,当>δt将分组数目减半;步骤S4:对相邻分组的协议分析结果进行对比,如果相同则接受,否则合并两个分组采用渐进多序列比对方法进行分析,输出分析结果。2.根据权利要求1所述的基于多序列比对的在线协议格式推断方法,其特征在于:根据步骤S1,设从网络中获取的流量表示为Flow={p0,p1,…,pw},则将其中每N个子流划分为一个组,Flow={flow0,flow1,…},其中flow0={p0,p1,…,pN-1},flow0={pN,pN+1,…,p2N-1}。3.根据权利要求1所述的基于多序列比对的在线协议格式推断方法,其特征在于:根据步骤S2,对一个分组flowi通过渐进多序列比对分析获得每个分组的协议格式PFGi,并且记录处理该分组的时间ti。4.根据权利要求2所述的基于多序列比对的在线协议格式推断方法,其特征在于:根据步骤S2,渐进多序列比对一般包括以下步骤:步骤a,计算距离矩阵,对于任意一个子流flowi={pi*N,pi*N+1,…...

【专利技术属性】
技术研发人员:张晓明何跃鹰孙中豪张嘉玮方喆君刘中金李建强王占丰田益凡胡超罗冰
申请(专利权)人:国家计算机网络与信息安全管理中心南京莱克贝尔信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1