本发明专利技术提供了一种未知协议的数据清洗和协议字段特征提取方法,该方法包括:抓取网络数据包;进行数据标记;清洗数据;获取未知协议字段特征;确认未知协议字段特征。本发明专利技术提出的未知协议的数据清洗和协议字段特征提取方法,将网络中庞大的数据量进行了清洗,区分出未知协议与已知协议,减少了后续处理的复杂性,并在此基础上,进一步提取出未知协议的字段特征;并且未知协议分析和识别的整体流程不是针对某种具体类型的协议类型,具有较好的通用性。
A method of data cleaning and protocol field feature extraction for unknown protocol
【技术实现步骤摘要】
一种未知协议的数据清洗和协议字段特征提取方法
本专利技术属于网络安全
,涉及未知网络协议分析技术,特别涉及一种未知协议的数据清洗和协议字段特征提取方法。
技术介绍
现有协议分析可以分为标准协议、私有协议和未知协议。标准协议为国际或国家标准化组织采纳或批准的;私有协议也称非标准协议,本质上是未经国际或国家标准化组织采纳或批准的,厂商内部发展和采用的标准,除非授权,其他厂商一般无权使用该协议;未知协议由未公开协议文档的未知应用层协议生成,不能使用传统的协议识别工具识别分析。分析表明,在每周的统计数据流量监测中超过四成流量属于未知应用协议,这些流量给网络管理、流量监控以及入侵检测等带来了巨大的挑战,而随着新技术的发展,已有的方法对于未知协议的识别效果越来越差。因此有效的未知协议分析方法,对网络管理、流量监控、入侵检测以及维护网络安全都有重要意义。现有的未知协议的分析方法主要包含:申请号CN201410628565的专利技术专利“一种私有协议分析与识别方法”,公开了一种私有协议分析与识别方法,具体包括以下步骤:步骤一:先将采用私有协议进行通信的客户端软件进行脱壳处理,得到脱壳后的原始程序;再对原始程序进行反汇编,得到该原始程序的汇编代码;然后对其汇编代码中的关键函数进行动态调试,从而得到该私有协议的报文类型的字段长度和构造特征;其中关键函数包括:1.报文数据包的构造函数;2.发送和接收报文数据包的函数;3.加密和解密函数;步骤二:抓取该私有协议的网络流数据,并按协议交互的不同阶段进行报文数据包分类,然后分别解析出每类报文数据包的字段结构;步骤三:对交互过程中的协议特征进行提取和归纳;其中:协议特征包括交互过程信息和报文数据包的字段结构特征;步骤四:利用步骤三中所得到的协议特征,设置协议识别的匹配表达式,对网络中获取到的流量进行识别。申请号CN201310398921的专利技术专利“基于协议分析的网络数据处理方法及系统”,公开了一种基于协议分析的网络数据处理方法及系统,该方法包括:1)捕获网络中的数据包;2)将所捕获的数据包的指纹与目的指纹相比较;3)判断通过指纹比对后的数据包是否为完整数据包;4)对完整数据包进行数据挖掘,生成新的关联规则;5)根据从规则库解析出来的协议,利用协议的特征对数据包进行协议分析;6)管理服务器根据信息日志,对警告信号进行实时响应;同时,判断是否将新生成的关联规则保存到规则库中。申请号CN201310718896的专利技术专利“一种基于基函数的网络协议分析方法”,公开了基于基函数的网络协议分析方法,包括:建立基函数库和已知结构协议的基函数模式组合方式库;当接收到目标网络发过来的数据,利用该数据和已有的基函数模式组合方式表征该目标网络对应的目标协议的结构;根据目标协议的结构进行判断:如果该数据为已知结构的协议数据,采用分层的方法对该目标协议进行分析;如果该数据位未知结构的协议数据,利用已有基函数或新的基函数生成该目标协议对应的基函数模式组合方式。该专利技术可以解决协议快速识别、精确分析处理的问题。上述方法主要存在以下问题:(1)网络数据集体量巨大但未作清洗,其中存在的各种与未知协议分析不相关的信息,不仅干扰分析效果,并且使得处理过程复杂,时间和空间需求巨大。(2)这些方法大多只关注未知协议分析和识别流程的某一个部分,且一般针对某种具体类型的协议进行分析,缺乏通用性。
技术实现思路
针对现有技术中的协议识别方法存在的数据量大、处理复杂等技术问题,本专利技术公开了一种未知协议的数据清洗和协议字段特征提取方法,该方法具有通用性,能够去除海量样本数据中的相关数据以及已知协议数据,减小后续处理的复杂性,并从中提取协议字段特征,其具体包括以下的步骤:步骤1:在网络的汇聚点抓取网络数据包;步骤2:数据标记:将抓取到的所述网络数据包按照抓取的时间顺序进行标记;步骤3:通过数据分类汇聚、获取公共数据地址、获取服务端地址、数据再分类、排除已知协议,得到清洗后的未知协议数据,具体按照下述步骤处理:步骤3.1数据分类汇聚:将步骤2得到的经过标记的网络数据包,分别按源地址数据和目的地址数据进行双向配对归类,相同源地址的数据汇聚为一类,以下简称I类数据;相同目的地址的数据汇聚为一类,以下简称II类数据,并将所述I类数据和所述II类数据分别按时序进行排序;步骤3.2获取公共数据地址:计算经过时序排序的所述I类数据中相同的源地址的数目,取其中数目大于预设源地址数目的数据记为I类公共数据;计算经过时序排序的所述II类数据中相同的目的地址的数目,取其中数目大于预设目的地址数目的数据记为II类公共数据;并丢弃不在两类公共数据中的数据;步骤3.3获取服务端地址:比较所述I类公共数据的地址和所述II类公共数据的地址,如果相同,将该地址标记为服务端地址;否则丢弃;步骤3.4数据再分类:将从步骤3.3得到的具有相同服务端地址标记的数据,重新按源地址数据和服务端地址数据进行双向配对,归为同类;并按时序进行排序,得到数据包;步骤3.5去掉已知协议:利用已知协议特征库匹配步骤3.4得到的数据包,丢掉其中的已知协议的数据包,得到清洗后的未知协议数据包;步骤4:通过计算n-bit源/服务端数据包的均值和方差分布、计算同类数据中不同n-bit源/服务端数据包的均值和方差分布的相似性、计算相似字段特征的稳定性,提取未知协议字段特征,得到未知协议字段特征,具体步骤如下:步骤4.1计算n-bit源/服务端数据包的均值和方差分布:将从步骤3.5得到的清洗后的未知协议数据包,按同类的源地址和服务端地址数据分别对齐,从对齐后的首部开始划分顺序区域,以bit为单位,逐步增加区域内bit数量n,计算各顺序区域数据的均值和方差,以下称为n-bit源/服务端数据包的均值和方差分布;步骤4.2计算并比较步骤4.1得到的同类数据中不同n-bit源/服务端数据包的均值和方差分布的相似性,选取相似性较大的作为n-bit相似字段特征;步骤4.3计算并比较步骤4.2得到的n-bit相似字段特征的稳定性,选取稳定性较大的作为未知协议字段特征;步骤5:确认未知协议字段特征,并建立协议字段特征识别的匹配表达式,存入未知协议字段特征库。通过上述步骤,本专利技术能够通用地对抓获的海量网络数据进行清洗,从中提取未知协议的字段特征,从而将对未知协议的分析转化为难度相对较低的同类未知协议进行分析。相比于其他同类技术,本专利技术一是将网络中庞大的数据量进行了清洗,区分出未知协议与已知协议,减少了后续处理的复杂性,并在此基础上,进一步提取出未知协议的字段特征;二是关注未知协议分析和识别的整体流程,针对的不是某种具体类型的协议类型,具有较好的通用性。附图说明图1为本专利技术的数据清洗和协议字段特征提取方法的流程图具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行本文档来自技高网...
【技术保护点】
1.一种未知协议的数据清洗和协议字段特征提取方法,其特征在于,该方法包括如下步骤:/nS1)在网络的汇聚点抓取网络数据包;/nS2)将抓取到的所述网络数据包按照抓取的时间顺序进行标记;/nS3)通过数据分类汇聚、获取公共数据地址、获取服务端地址、数据再分类、排除已知协议,得到清洗后的未知协议数据,具体操作步骤如下:/nS3.1)数据分类汇聚:将步骤S2)得到的经过标记的所述网络数据包,分别按源地址数据和目的地址数据进行双向配对归类,将相同源地址的数据汇聚为一类,简称I类数据;相同目的地址的数据汇聚为一类,简称II类数据;并将所述I类数据和所述II类数据分别按时序进行排序;/nS3.2)获取公共数据地址:计算经过时序排序的所述I类数据中相同的源地址的数目,取其中数目大于预设源地址数目的数据记为I类公共数据;计算经过时序排序的所述II类数据中相同的目的地址的数目,取其中数目大于预设目的地址数目的数据记为II类公共数据;并丢弃不在两类公共数据中的数据;/nS3.3)获取服务端地址:比较所述I类公共数据的地址和所述II类公共数据的地址,如果相同,将该地址标记为服务端地址;否则丢弃;/nS3.4)数据再分类:将从步骤S3.3)得到的具有相同服务端地址标记的数据,重新按源地址数据和服务端地址数据进行双向配对,归为同类;并按时序进行排序,得到数据包;/nS3.5)去掉已知协议:利用已知协议特征库匹配步骤S3.4)得到的数据包,丢掉其中的已知协议的数据包,得到清洗后的未知协议数据包;/nS4)通过计算n-bit源/服务端数据包的均值和方差分布、计算同类数据中不同n-bit源/服务端数据包的均值和方差分布的相似性、计算相似字段特征的稳定性,提取未知协议字段特征,得到未知协议字段特征,具体步骤如下:/nS4.1)计算n-bit源/服务端数据包的均值和方差分布:将从步骤S3.5)得到的清洗后的未知协议数据包,按同类的源地址和服务端地址数据分别对齐,从对齐后的首部开始划分顺序区域,以bit为单位,逐步增加区域内bit数量n,计算各顺序区域数据的均值和方差,称为n-bit源/服务端数据包的均值和方差分布;/nS4.2)计算并比较步骤S4.1)得到的同类数据中不同n-bit源/服务端数据包的均值和方差分布的相似性,选取相似性为前200的作为n-bit相似字段特征;/nS4.3)计算并比较步骤S4.2)得到的n-bit相似字段特征的稳定性,选取稳定性为前5的作为未知协议字段特征;/nS5)确认未知协议字段特征,并建立协议字段特征识别的匹配表达式,存入未知协议字段特征库。/n...
【技术特征摘要】
1.一种未知协议的数据清洗和协议字段特征提取方法,其特征在于,该方法包括如下步骤:
S1)在网络的汇聚点抓取网络数据包;
S2)将抓取到的所述网络数据包按照抓取的时间顺序进行标记;
S3)通过数据分类汇聚、获取公共数据地址、获取服务端地址、数据再分类、排除已知协议,得到清洗后的未知协议数据,具体操作步骤如下:
S3.1)数据分类汇聚:将步骤S2)得到的经过标记的所述网络数据包,分别按源地址数据和目的地址数据进行双向配对归类,将相同源地址的数据汇聚为一类,简称I类数据;相同目的地址的数据汇聚为一类,简称II类数据;并将所述I类数据和所述II类数据分别按时序进行排序;
S3.2)获取公共数据地址:计算经过时序排序的所述I类数据中相同的源地址的数目,取其中数目大于预设源地址数目的数据记为I类公共数据;计算经过时序排序的所述II类数据中相同的目的地址的数目,取其中数目大于预设目的地址数目的数据记为II类公共数据;并丢弃不在两类公共数据中的数据;
S3.3)获取服务端地址:比较所述I类公共数据的地址和所述II类公共数据的地址,如果相同,将该地址标记为服务端地址;否则丢弃;
S3.4)数据再分类:将从步骤S3.3)得到的具有相同服务端地址标记的数据,重新按源地址数据和服务端地址数据进行双向配对,归为同类;并按时序进行排序,得到数据包;
S3.5)去...
【专利技术属性】
技术研发人员:范明钰,王一芙,吴紫阳,鲍亮,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。