一种未知协议的数据清洗和协议字段特征提取方法技术

技术编号：24497683 阅读：40 留言：0更新日期：2020-06-13 03:41

本发明专利技术提供了一种未知协议的数据清洗和协议字段特征提取方法，该方法包括：抓取网络数据包；进行数据标记；清洗数据；获取未知协议字段特征；确认未知协议字段特征。本发明专利技术提出的未知协议的数据清洗和协议字段特征提取方法，将网络中庞大的数据量进行了清洗，区分出未知协议与已知协议，减少了后续处理的复杂性，并在此基础上，进一步提取出未知协议的字段特征；并且未知协议分析和识别的整体流程不是针对某种具体类型的协议类型，具有较好的通用性。

A method of data cleaning and protocol field feature extraction for unknown protocol

全部详细技术资料下载

【技术实现步骤摘要】
一种未知协议的数据清洗和协议字段特征提取方法
本专利技术属于网络安全
，涉及未知网络协议分析技术，特别涉及一种未知协议的数据清洗和协议字段特征提取方法。
技术介绍
现有协议分析可以分为标准协议、私有协议和未知协议。标准协议为国际或国家标准化组织采纳或批准的；私有协议也称非标准协议，本质上是未经国际或国家标准化组织采纳或批准的，厂商内部发展和采用的标准，除非授权，其他厂商一般无权使用该协议；未知协议由未公开协议文档的未知应用层协议生成，不能使用传统的协议识别工具识别分析。分析表明，在每周的统计数据流量监测中超过四成流量属于未知应用协议，这些流量给网络管理、流量监控以及入侵检测等带来了巨大的挑战，而随着新技术的发展，已有的方法对于未知协议的识别效果越来越差。因此有效的未知协议分析方法，对网络管理、流量监控、入侵检测以及维护网络安全都有重要意义。现有的未知协议的分析方法主要包含：申请号CN201410628565的专利技术专利“一种私有协议分析与识别方法”，公开了一种私有协议分析与识别方法，具体包括以...

【技术保护点】
1.一种未知协议的数据清洗和协议字段特征提取方法，其特征在于，该方法包括如下步骤：/nS1)在网络的汇聚点抓取网络数据包；/nS2)将抓取到的所述网络数据包按照抓取的时间顺序进行标记；/nS3)通过数据分类汇聚、获取公共数据地址、获取服务端地址、数据再分类、排除已知协议，得到清洗后的未知协议数据，具体操作步骤如下：/nS3.1)数据分类汇聚：将步骤S2)得到的经过标记的所述网络数据包，分别按源地址数据和目的地址数据进行双向配对归类，将相同源地址的数据汇聚为一类，简称I类数据；相同目的地址的数据汇聚为一类，简称II类数据；并将所述I类数据和所述II类数据分别按时序进行排序；/nS3.2)获取公共...

【技术特征摘要】
1.一种未知协议的数据清洗和协议字段特征提取方法，其特征在于，该方法包括如下步骤：
S1)在网络的汇聚点抓取网络数据包；
S2)将抓取到的所述网络数据包按照抓取的时间顺序进行标记；
S3)通过数据分类汇聚、获取公共数据地址、获取服务端地址、数据再分类、排除已知协议，得到清洗后的未知协议数据，具体操作步骤如下：
S3.1)数据分类汇聚：将步骤S2)得到的经过标记的所述网络数据包，分别按源地址数据和目的地址数据进行双向配对归类，将相同源地址的数据汇聚为一类，简称I类数据；相同目的地址的数据汇聚为一类，简称II类数据；并将所述I类数据和所述II类数据分别按时序进行排序；
S3.2)获取公共数据地址：计算经过时序排序的所述I类数据中相同的源地址的数目，取其中数目大于预设源地址数目的数据记为I类公共数据；计算经过时序排序的所述II类数据中相同的目的地址的数目，取其中数目大于预设目的地址数目的数据记为II类公共数据；并丢弃不在两类公共数据中的数据；
S3.3)获取服务端地址：比较所述I类公共数据的地址和所述II类公共数据的地址，如果相同，将该地址标记为服务端地址；否则丢弃；
S3.4)数据再分类：将从步骤S3.3)得到的具有相同服务端地址标记的数据，重新按源地址数据和服务端地址数据进行双向配对，归为同类；并按时序进行排序，得到数据包；
S3.5)去...

【专利技术属性】
技术研发人员：范明钰，王一芙，吴紫阳，鲍亮，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人