一种基于误码率模型的未知通信协议识别方法技术

技术编号:15695513 阅读:40 留言:0更新日期:2017-06-24 10:59
本发明专利技术公开了一种基于误码率模型的未知通信协议识别方法,通过将多模式匹配算法和关联规则分析算法相结合,提取已知协议的协议特征串,构建协议特征库。然后,在识别被识别数据采用的协议类型的时候,计算被识别数据允许的最大误比特数,并在此误比特数范围内采用模糊匹配算法提取被识别数据的特征串。最后,通过自动推理得到被识别数据所采用的协议类型。因此,本识别方法能够提高数据识别率,对于具有误码的数据具有良好的识别效果。

【技术实现步骤摘要】
一种基于误码率模型的未知通信协议识别方法
本专利技术属于计算机网络安全
,更为具体地讲,涉及一种基于误码率模型的未知通信协议识别方法。
技术介绍
随着通信技术的飞速发展,网络通信成为了人们日常生活的主要交流方式,随之而来的则是越来越严重的网络信息安全问题。对于传统的网络安全技术而言,只能解决部分问题,而准确地识别通信数据所使用的协议对于克服传统网络安全技术缺陷具有重要的意义,是研究区分服务、入侵检测、流量监控以及分析用户行为的前提和基础。目前,网络协议识别技术得到了快速的发展和应用,主要包括基于端口、流特征以及负载行为进行识别。基于知名端口号识别技术主要是对应用层协议进行识别,其原理是根据各个应用层协议在IANA中注册的端口号来识别协议;基于流特征检测技术实质上是一类基于统计属性的数据流分类算法,主要利用协议规范的不同而导致数据流属性的差异来区别各个协议;基于负载进行协议识别就是使用数据特征来对协议进行识别。在以上的传统协议识别技术中,常采用多模式匹配等精确识别方法来进行协议的特征提取,随后根据提取的数据特征进行数据协议识别。但是,在实际数据传输过程中常常存在误帧情况,例如在无线通信过程中,以下原因将可能造成误帧:1、接收信号很弱时。2、导频污染的时候。3、在小区间切换时。4、在切换区域内无法切换时。特别是第4种情况下将出现严重的误帧,目前要求的误帧率一般是小于等于1%,其中1%~2%表示通话质量良好,2%~3%表示通话质量一般,3%~5%表示通话质量较差,5%~10%表示通话质量非常差,因此,误帧的情况在通信过程中出现的概率很大。另外以太网和802.3对数据帧的长度最大限制分别为1500和1492字节,且协议特征串一般在1到6字节之间。因此,选取最短特征串、最小误帧率和最长特征串、最大误帧率计算得出特征串错误率在0.00667‰到0.4‰之间。即最坏的情况下,数据帧将会有0.4‰的概率无法识别而被丢弃。特别是对于国防安全和军事对抗领域来说,此精度远远不能满足需求。基于以上分析,当误码刚好存在于数据所具有的协议特征串中的时候,基于多模式匹配等方法的精确识别系统往往无法识别此数据,从而对误码数据不作为而丢弃,此时将导致数据识别率下降。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于误码率模型的未知通信协议识别方法,在正常的误码情况下,对具有误码的帧进行模糊特征提取,且在最大误比特数范围内的帧依然进行未知通信协议识别,由此来提高数据识别率,从而达到更好的识别效果。为实现上述专利技术目的,本专利技术一种基于误码率模型的未知通信协议识别方法,其特征在于,包括以下步骤:(1)、数据采集及预处理利用网络抓包工具抓取网络中的通信数据,再将通信数据按照帧格式进行存储,且每一帧进行二进制处理,最后将处理完成的已知协议通信数据作为训练数据,将未知协议通信数据作为被识别数据;(2)、对训练数据进行特征提取,得到协议特征库(2.1)、利用模式匹配算法提取频繁集根据已有网络协议特征字符串允许的长度,穷举所有的1~6字节的二进制字符串,记为{p1,p2,p3,......,pm},pm表示第m个二进制字符串,最后将穷举的所有二进制字符串作为模式字符串;提取训练数据中的每一帧数据,组成目标字符串{t1,t2,t3,......,tn},tn表示第n帧数据;将{p1,p2,p3,......,pm}和{t1,t2,t3,......,tn}作为模式匹配算法的输入,通过模式匹配算法进行匹配,并记录匹配成功的模式字符串以及其在目标字符串中的位置,最后统计相同位置上出现同一模式字符串的帧数,并将帧数占比大于M%的模式字符串定义为此协议的频繁字符串,最后将所有频繁字符串组成频繁集{f1,f2,f3,......,fK},fK表示第K个频繁字符串;(2.2)、利用关联规则分析算法提取协议特征将频繁集{f1,f2,f3,......,fK}及频繁字符串在各个帧中出现的位置作为关联规则分析算法的输入,通过关联规则分析算法对频繁字符串进行关联规则分析,得到关联字符串,再统计出关联字符串出现的次数和位置,并将关联字符串出现的次数占比大于M%的关联字符串作为识别规则,最后将识别规则中的频繁字符串{f1,f2,f3,......,fk}存入协议特征库中,其中,fk表示第k(k≤K)个频繁字符串;(3)、利用模糊匹配算法获取模糊特征集(3.1)、计算被识别数据允许的最大误比特数其中,L1表示允许的最长特征串的长度,L2表示被识别数据帧的帧长度,FER表示被识别数据的误帧率;(3.2)、根据协议特征库,利用模糊匹配算法提取最大误比特数范围内的所有模糊特征字符串将被识别数据、频繁字符串{f1,f2,f3,......,fk}和被识别数据允许的最大误比特数作为模糊匹配算法的输入,通过模糊匹配算法进行匹配,记录匹配成功的模糊特征字符串及其在被识别数据帧中的位置,并存入到模糊特征集中;(4)、采用Jena自动推理机识别帧的协议类型首先建立推理规则库,再将模糊特征集中的模糊特征字符串和推理规则库作为Jena自动推理机的输入,并进行推理,得出每一组模糊特征字符串所对应的协议类型,即为此帧的协议类型。本专利技术的专利技术目的是这样实现的:本专利技术一种基于误码率模型的未知通信协议识别方法,通过将多模式匹配算法和关联规则分析算法相结合,提取已知协议的协议特征串,构建协议特征库。然后,在识别被识别数据采用的协议类型的时候,计算被识别数据允许的最大误比特数,并在此误比特数范围内采用模糊匹配算法提取被识别数据的特征串。最后,通过自动推理得到被识别数据所采用的协议类型。因此,本识别方法能够提高数据识别率,对于具有误码的数据具有良好的识别效果。同时,本专利技术一种基于误码率模型的未知通信协议识别方法还具有以下有益效果:(1)、通过将多模式匹配算法和关联规则分析算法相结合,能够准确的提取现有协议的协议特征串,剔除错误的协议特征串,为构建完整准确的协议特征库提供途径;(2)、实际识别过程中,采用模糊特征提取算法,与传统的精确协议识别技术相比较,提高了数据的利用率,从而也提高了数据识别率。同时,在识别的过程中,引入了最大误比特数的概念,对于识别过程中的数据误码程度进行了控制,保证了误码数据的识别准确率;(3)、提取了数据模糊特征串之后,使用Jena推理机或者SVM来对数据进行推理或者分类识别,提高了协议识别的自动化程度,从而,提高了协议识别的效率。附图说明图1是本专利技术基于误码率模型的未知通信协议识别方法流程图;图2是Jena自动推理机的识别流程图;图3是SVM支持向量机的识别流程图。具体实施方式下面结合附图对本专利技术的具体实施方式进行描述,以便本领域的技术人员更好地理解本专利技术。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本专利技术的主要内容时,这些描述在这里将被忽略。实施例图1是本专利技术基于误码率模型的未知通信协议识别方法流程图。在本实施例中,如图1所示,本专利技术一种基于误码率模型的未知通信协议识别方法,包括以下步骤:S1、数据采集及预处理数据采集:利用winpcap、libpcap等工具抓取网络中的通信数据,其获取的数据可以是无线或有线数据;也可以通过其他数据收集本文档来自技高网
...
一种基于误码率模型的未知通信协议识别方法

【技术保护点】
一种基于误码率模型的未知通信协议识别方法,其特征在于,包括以下步骤:(1)、数据采集及预处理利用网络抓包工具抓取网络中的通信数据,再将通信数据按照帧格式进行存储,且每一帧进行二进制处理,最后将处理完成的已知协议通信数据作为训练数据,将未知协议通信数据作为被识别数据;(2)、对训练数据进行特征提取,得到协议特征库(2.1)、利用模式匹配算法提取频繁集根据已有网络协议特征字符串允许的长度,穷举所有的1~6字节的二进制字符串,记为{p

【技术特征摘要】
1.一种基于误码率模型的未知通信协议识别方法,其特征在于,包括以下步骤:(1)、数据采集及预处理利用网络抓包工具抓取网络中的通信数据,再将通信数据按照帧格式进行存储,且每一帧进行二进制处理,最后将处理完成的已知协议通信数据作为训练数据,将未知协议通信数据作为被识别数据;(2)、对训练数据进行特征提取,得到协议特征库(2.1)、利用模式匹配算法提取频繁集根据已有网络协议特征字符串允许的长度,穷举所有的1~6字节的二进制字符串,记为{p1,p2,p3,......,pm},pm表示第m个二进制字符串,最后将穷举的所有二进制字符串作为模式字符串;提取训练数据中的每一帧数据,组成目标字符串{t1,t2,t3,......,tn},tn表示第n帧数据;将{p1,p2,p3,......,pm}和{t1,t2,t3,......,tn}作为模式匹配算法的输入,通过模式匹配算法进行匹配,并记录匹配成功的模式字符串以及其在目标字符串中的位置,最后统计相同位置上出现同一模式字符串的帧数,并将帧数占比大于M%的模式字符串定义为此协议的频繁字符串,最后将所有频繁字符串组成频繁集{f1,f2,f3,......,fK},fK表示第K个频繁字符串;(2.2)、利用关联规则分析算法提取协议特征将频繁集{f1,f2,f3,......,fK}及频繁字符串在各个帧中出现的位置作为关联规则分析算法的输入,通过关联规则分析算法对频繁字符串进行关联规则分析,得到关联字符串,再统计出关联字符串出现的次数和位置,并将关联字符串出现的次数占比大于M%的关联字符串作为识别规则,再将识别规则中的频繁字符串{f1,f2,f3,......,fk}存入协议特征库中,其中,f...

【专利技术属性】
技术研发人员:蔡乐石荣许都
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1