特征模式集生成方法及装置制造方法及图纸

技术编号:10486529 阅读:104 留言:0更新日期:2014-10-03 15:47
本发明专利技术公开了一种特征模式集生成方法及装置,属于协议识别技术领域。所述方法包括:从信令数据流中获取待分析的多个数据包,所述多个数据包的类型相同且等长度;对所述多个数据包进行特征分析,得到所述多个数据包的高频字节串;确定所述高频字节串的位置特征信息;根据所述位置特征信息,生成与所述多个数据包的类型相匹配的特征模式集。由于基于高频字节串的位置特征信息生成特征模式集,所以根据该特征模式集可有效对信令数据进行协议识别和分类。且在进行协议识别时对协议的版本号不敏感,即便采集到的数据的包头信息不完整或有误,也可对数据的协议类型进行识别,所以大大地增强了对数据包的解码能力,提高了协议识别率。

【技术实现步骤摘要】
特征模式集生成方法及装置
本专利技术涉及协议识别
,特别涉及一种特征模式集生成方法及装置。
技术介绍
随着互联网技术的迅速发展,网络服务质量、网络安全及网络流量控制等问题日益突出。而准确地对网络链路中流量所使用的协议进行识别,对提高网络服务质量、进行入侵检测及网络流量管理有着重要的意义。因此,协议识别成为了当下的一个研究热点。在对协议进行识别之前,需生成协议的特征模式集,通过生成的特征模式集便可对网络链路中的各种流量所使用的协议进行识别。 现有技术在生成特征模式集时,采用基于应用载荷的分析方法。也即,针对存在标准文档的协议,对标准文档中明确规定的交互过程中必定出现的特征进行提取或归纳总结,得到协议的特征字符串;之后,根据该协议的特征字符串生成该协议的正则表达式,得到该协议的特征模式。以FTP(File Transfer Protocol,文本传输协议)为例,由于相互通信的两台FTP服务器在准备就绪时,通常会先发送字符串“220”,且在后续通信的过程中,发送的字符中通常包括字符串“FTP”,所以FTP的特征模式可利用正则表达式~220[\x09-\xOd-~]*ftp进行表示。其中,\x09-\x0d-指代所有的ASCII可打印字符。 在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题: 利用上述生成方法生成的特征模式对协议名称或版本等关键字敏感。当协议名称发生变更或版本更新时,可能会无法识别采集到的信令数据的协议类型;且当采集到的信令数据的包头信息不完整或有误时,也可能会无法识别该数据的协议类型;此外,在3G(3rd_generat1n,第三代移动通信技术)信令网PS (Packet Switch,分组交换)域中,存在大量的非运营商OTT业务数据,该类业务的信令数据均采用私有协议类型,所以采用该种生成方式生成的特征模式不能对该类数据进行协议识别。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种特征模式集生成方法及装置。所述技术方案如下: 一方面,提供了一种特征模式集生成方法,所述方法包括: 从信令数据流中获取待分析的多个数据包,所述多个数据包的类型相同且等长度; 对所述多个数据包进行特征分析,得到所述多个数据包的高频字节串; 确定所述闻频字节串的位置特征?目息; 根据所述位置特征信息,生成与所述多个数据包的类型相匹配的特征模式集。 可选地,所述对所述多个数据包进行特征分析,得到所述多个数据包的高频字节串,包括: 对于所述多个数据包中的一个数据包,对所述数据包中的每一个字节元素进行字符转换,得到所述每一个字节元素对应的字符类型标识; 确定所述每一个字节元素的字节值及所述每一个字节元素在所述数据包中的相对位置偏移; 判断所述多个数据包中同一相对位置偏移上的字节元素的字节值是否一致; 如果所述多个数据包中同一相对位置偏移上的字节元素的字节值一致,则所述字节元素为第一高频字节元素。 可选地,所述确定所述每一个字节元素的字节值及所述每一个字节元素在所述数据包中的相对位置偏移之后,所述方法还包括: 判断所述多个数据包中同一相对位置偏移上的字节元素对应的字符类型标识是否为同一类型; 如果所述多个数据包中同一相对位置偏移上的字节元素对应的字符类型标识为同一类型,则所述字节元素为第二高频字节元素。 可选地,所述确定所述高频字节串的位置特征信息之前,所述方法还包括: 生成所述每一个字节元素的参数项,所述参数项中包括所述每一个字节元素的字节值、所述每一个字节元素对应的字符类型标识及所述每一个字节元素在所述数据包中的相对位置偏移; 所述确定所述高频字节串的位置特征信息,包括: 获取所述第一高频字节元素的参数项,将所述第一高频字节元素的参数项作为第一位置特征信息; 获取所述第二高频字节元素的参数项,将所述第二高频字节元素的参数项作为第二位置特征信息。 可选地,所述根据所述位置特征信息,生成与所述多个数据包的类型相匹配的特征模式集,包括: 对于所述第一位置特征信息,确定所述第一位置特征信息中具有相同参数项的完全相等项集合,每一个完全相等项中至少包括两个参数项; 确定所述完全相等项集合中,每一个完全相等项的支持度; 如果所述完全相等项集合中存在支持度小于预设阈值的完全相等项,则将所述完全相等项在所述完全相等项集合中删除,得到新的完全相等项集合; 至少根据所述新的完全相等项集合,生成所述特征模式集。 可选地,所述根据所述位置特征信息,生成与所述多个数据包的类型相匹配的特征模式集,包括: 对于所述第二位置特征信息,确定所述第二位置特征信息中具有相同字符类型标识和相同相对位置偏移的同类相等项集合,每一个同类相等项中至少包括两个参数项; 确定所述同类相等项集合中,每一个同类相等项的支持度; 如果所述同类相等项集合中存在支持度小于预设阈值的同类相等项,则将所述同类相等项在所述同类相等项集合中删除,得到新的同类相等项集合; 至少根据所述新的同类相等项集合,生成所述特征模式集。 可选地,所述根据所述位置特征信息,生成与所述多个数据包的类型相匹配的特征模式集,包括: 根据所述新的完全相等项集合和所述新的同类相等项集合,生成与所述多个数据包的类型相匹配的特征模式集。 另一方面,提供了一种特征模式集生成装置,所述装置包括: 数据包获取模块,用于从信令数据流中获取待分析的多个数据包,所述多个数据包的类型相同且等长度; 特征分析模块,用于对所述多个数据包进行特征分析,得到所述多个数据包的高频字节串; 特征信息确定模块,用于确定所述高频字节串的位置特征信息; 特征模式集生成模块,用于根据所述位置特征信息,生成与所述多个数据包的类型相匹配的特征模式集。 可选地,所述特征分析模块,包括: 字符转换单元,用于对于所述多个数据包中的一个数据包,对所述数据包中的每一个字节元素进行字符转换,得到所述每一个字节元素对应的字符类型标识; 位置偏移确定单元,用于确定所述每一个字节元素的字节值及所述每一个字节元素在所述数据包中的相对位置偏移; 字节元素判断单元,用于判断所述多个数据包中同一相对位置偏移上的字节元素的字节值是否一致; 高频字节元素确定单元,用于当所述多个数据包中同一相对位置偏移上的字节元素的字节值一致时,确定所述字节元素为第一高频字节元素。 可选地,所述字节元素判断单元,还用于判断所述多个数据包中同一相对位置偏移上的字节元素对应的字符类型标识是否为同一类型; 所述高频字节元素确定单元,还用于当所述多个数据包中同一相对位置偏移上的字节元素对应的字符类型标识为同一类型时,确定所述字节元素为第二高频字节元素。 可选地,所述装置还包括: 参数项生成模块,用于生成所述每一个字节元素的参数项,所述参数项中包括所述每一个字节元素的字节值、所述每一个字节元素对应的字符类型标识及所述每一个字节元素在所述数据包中的相对位置偏移; 所述特征信息确定模块,用于获取所述第一高频字节元素的参数项,将所述第一高频字节元素的参数项作为第一位置特征信息;获取所述第二高频字节元素的参数项,将所述第二高频字节元素的参数项作为第二位置本文档来自技高网
...
特征模式集生成方法及装置

【技术保护点】
一种特征模式集生成方法,其特征在于,所述方法包括:从信令数据流中获取待分析的多个数据包,所述多个数据包的类型相同且等长度;对所述多个数据包进行特征分析,得到所述多个数据包的高频字节串;确定所述高频字节串的位置特征信息;根据所述位置特征信息,生成与所述多个数据包的类型相匹配的特征模式集。

【技术特征摘要】
1.一种特征模式集生成方法,其特征在于,所述方法包括: 从信令数据流中获取待分析的多个数据包,所述多个数据包的类型相同且等长度; 对所述多个数据包进行特征分析,得到所述多个数据包的高频字节串; 确定所述高频字节串的位置特征信息; 根据所述位置特征信息,生成与所述多个数据包的类型相匹配的特征模式集。2.根据权利要求1所述的方法,其特征在于,所述对所述多个数据包进行特征分析,得到所述多个数据包的高频字节串,包括: 对于所述多个数据包中的一个数据包,对所述数据包中的每一个字节元素进行字符转换,得到所述每一个字节元素对应的字符类型标识; 确定所述每一个字节元素的字节值及所述每一个字节元素在所述数据包中的相对位置偏移; 判断所述多个数据包中同一相对位置偏移上的字节元素的字节值是否一致; 如果所述多个数据包中同一相对位置偏移上的字节元素的字节值一致,则所述字节元素为第一高频字节元素。3.根据权利要求2所述的方法,其特征在于,所述确定所述每一个字节元素的字节值及所述每一个字节元 素在所述数据包中的相对位置偏移之后,所述方法还包括: 判断所述多个数据包中同一相对位置偏移上的字节元素对应的字符类型标识是否为同一类型; 如果所述多个数据包中同一相对位置偏移上的字节元素对应的字符类型标识为同一类型,则所述字节元素为第二高频字节元素。4.根据权利要求3所述的方法,其特征在于,所述确定所述高频字节串的位置特征信息之前,所述方法还包括: 生成所述每一个字节元素的参数项,所述参数项中包括所述每一个字节元素的字节值、所述每一个字节元素对应的字符类型标识及所述每一个字节元素在所述数据包中的相对位置偏移; 所述确定所述高频字节串的位置特征信息,包括: 获取所述第一高频字节元素的参数项,将所述第一高频字节元素的参数项作为第一位置特征信息; 获取所述第二高频字节元素的参数项,将所述第二高频字节元素的参数项作为第二位置特征信息。5.根据权利要求4所述的方法,其特征在于,所述根据所述位置特征信息,生成与所述多个数据包的类型相匹配的特征模式集,包括: 对于所述第一位置特征信息,确定所述第一位置特征信息中具有相同参数项的完全相等项集合,每一个完全相等项中至少包括两个参数项; 确定所述完全相等项集合中,每一个完全相等项的支持度; 如果所述完全相等项集合中存在支持度小于预设阈值的完全相等项,则将所述完全相等项在所述完全相等项集合中删除,得到新的完全相等项集合; 至少根据所述新的完全相等项集合,生成所述特征模式集。6.根据权利要求4所述的方法,其特征在于,所述根据所述位置特征信息,生成与所述多个数据包的类型相匹配的特征模式集,包括: 对于所述第二位置特征信息,确定所述第二位置特征信息中具有相同字符类型标识和相同相对位置偏移的同类相等项集合,每一个同类相等项中至少包括两个参数项; 确定所述同类相等项集合中,每一个同类相等项的支持度; 如果所述同类相等项集合中存在支持度小于预设阈值的同类相等项,则将所述同类相等项在所述同类相等项集合中删除,得到新的同类相等项集合; 至少根据所述新的同类相等项集合,生成所述特征模式集。7.根据权利要求5或6所述的方法,其特征在于,所述根据所述位置特征信息,生成与所述多个数据包的类型相匹配的特征模式集,包括: 根据所述新的完全相等项集合和所述...

【专利技术属性】
技术研发人员:邓中亮林文亮肖潇王瑾李辉
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1