一种攻击特征提取的方法技术

技术编号:27534634 阅读:23 留言:0更新日期:2021-03-03 11:18
本发明专利技术公开了一种攻击特征提取的方法,其特征在于,包括如下步骤:通过协议解析获取攻击字段并转化为数字矩阵,通过特殊字符对字段模式进行初步分隔,对分隔完毕的数据进行统计分析并更新数字矩阵,在更新的数字矩阵中统计重复出现的字段组合,建立攻击特征分类模型,提取已知和未知的攻击字段中与攻击相关的关键特征,并预测已知和未知的攻击信息的攻击类型。本发明专利技术基于对网络通讯协议的解析和攻击特征的理解,建立通用的攻击特征提取方法,并依据相关特征对攻击类型进行分类。通过对不同的攻击样本的分析,利用统计方法提取出攻击字段中具有攻击特征的信息,并在此基础上对攻击类型进行分类建模,实现了高效客观的攻击特征自动提取。动提取。动提取。

【技术实现步骤摘要】
一种攻击特征提取的方法


[0001]本专利技术涉及一种攻击特征提取的方法,尤其是一种网络攻击特征提取的方法,属于数据提取领域。

技术介绍

[0002]随着网络规模的日益扩大,网络攻击数量也随之增多。如何保证网络系统的正常平稳运行,成为了网络安全的最主要课题,而基于攻击特征的攻击检测成为了最为常见的检测方式。攻击特征是对攻击行为的一种总结性的描述,通常情况下,攻击特征应为该攻击所产生的流量数据中的独有特性,通过特征可以直观地发现和确定一个攻击行为,并且不会对日常的生产生活造成较大影响。而对于一个未知的攻击行为,我们需要对其进行特征的分析和提取,以便之后对该类攻击的预警和防御。
[0003]现有的攻击特征自动提取技术分为基于网络的攻击特征提取技术和基于主机的攻击特征提取技术。基于网络的攻击特征提取技术利用网络上的攻击信息,通过算法提取攻击信息中的攻击特征;而基于主机的攻击特征提取技术通过对系统环境做一定的改变,在被攻击的主机中获取相关攻击信息并分析得出特征。两类方法的准确性,特征提取速度,特征易用度和方法本身都有着不同程度的优缺点。
[0004]攻击特征提取的过程十分繁琐复杂,采用渗透专家进行攻击特征提取的方式速度慢,并且主观性高,无法确定所提取的特征的有效性。因此需要一种高效客观的攻击特征自动提取技术。

技术实现思路

[0005]本专利技术要解决的技术问题是:现有攻击特征提取的方式速度慢,并且主观性高,无法确定所提取的特征的有效性。
[0006]为了解决上述问题,本专利技术的技术方案是提供了一种攻击特征提取的方法,其特征在于,包括如下步骤:
[0007]步骤一、通过协议解析获取攻击字段,将以二进制流表示的攻击字段以字节为单位将数据转化为数字矩阵,并使用掩码处理不同长度的字段;
[0008]步骤二、确定作为分隔符的特征字符,通过特殊字符对字段模式进行初步分隔;
[0009]步骤三:对分隔完毕的数据进行统计分析,统计所有对应分隔符间的字符串的出现频次信息,提取出常见的关键字段,设置相应的阈值,将一些较常出现的字符串以统一的标记序号表示,并更新序号-字符/字符串对应表和数字序号矩阵,以获得初步提取的关键攻击字段;
[0010]步骤四:在更新的数字矩阵中统计重复出现的字段组合,选择一个字符、字符串组合的长度n,统计长度为n的字符、字符串组合的出现频次,设置相应的阈值,提取出现频次较多的字符、字符串的组合,并合并邻近的组合,以获得最终提取特征信息;
[0011]步骤五:建立攻击特征分类模型,并在此基础上通过递归神经网络(RNN) 模型的
训练和应用,提取已知和未知的攻击字段中与攻击相关的关键特征,并预测已知和未知的攻击信息的攻击类型。
[0012]优选地,所述步骤一中对于攻击字段中256个字符未全部出现的情况,将所有出现的字符进行相应的排序并记录序号-字符的对应表,最终在数字矩阵中保存相应字符的序号得到数字信号矩阵,数字矩阵的每一行表示一条攻击字段,通过查找序号-字符对应表可以获取原攻击字段,所得数字序号矩阵中的序号与原攻击字段中的字符一一对应。
[0013]优选地,获得数字矩阵后,可以基于字符出现的频次统计信息设置阈值,将一些出现较少的字符以统一的标记序号表示,并更新序号-字符对应表和数字序号矩阵,更新的数字序号矩阵中的序号可对应于原攻击字段中的一个或多个字符。
[0014]优选地,更新数字矩阵后,对于各条攻击字段长度不一的情况,以掩码矩阵的形式,记录并处理不同长度的字段。
[0015]优选地,所述特征字符包括成对的分隔符、并列关系的分隔符和赋值号。
[0016]优选地,所述步骤三中更新后的数字序号矩阵中的序号可以对应于单个字符、多个字符或特定的常见字符串,所述常见字符串为初步提取的关键攻击字段。
[0017]优选地,所述步骤四具体为,对长度为n的字符、字符串组合的首尾序号配对进行统计,在其出现频次的基础上再对固定首尾的字符、字符串组合进行统计,并记录组合出现的位置,根据所获得的字符串组合的位置信息,通过位置信息的比对合并出现频次在预设阈值以上的邻近组合,合并后所得的字符、字符串组合为最终提取的攻击特征。
[0018]优选地,所述建立攻击特征分类模型包括对字段中各个字符串组合、以及对各条攻击信息的攻击类型进行标签工作,并在此基础上通过递归神经网络(RNN) 模型训练和应用。
[0019]与现有技术相比,本专利技术的有益效果是:
[0020]本专利技术基于对网络通讯协议的解析和攻击特征的理解,建立通用的攻击特征提取方法,并依据相关特征对攻击类型进行分类。在本方法中,通过对不同的攻击样本的分析,利用统计方法提取出攻击字段中具有攻击特征的信息,并在此基础上对攻击类型进行分类建模,实现了高效客观的攻击特征自动提取。
附图说明
[0021]图1为本专利技术一种攻击特征提取的方法流程图;
[0022]图2为本专利技术实施例中攻击字段转化为数字矩阵的示意图;
[0023]图3为本专利技术实施例掩码矩阵图;
[0024]图4为本专利技术实施例初步分隔完毕的数据字段模式示意图;
[0025]图5为本专利技术实施例合并后的常见字符串示意图。
具体实施方式
[0026]为使本专利技术更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
[0027]如图1所示,鉴于
技术介绍
攻击行为特征提取过程中所遇到的问题,本专利技术提出一种攻击特征提取的方法,基于对网络通讯协议的解析和攻击特征的理解,建立通用的攻击特征提取方法,并依据相关特征对攻击类型进行分类。在本方法中,通过对不同的攻击样本
的分析,利用统计方法提取出攻击字段中具有攻击特征的信息,并在此基础上对攻击类型进行分类建模。具体来说,包括以下步骤:
[0028]步骤一:通过协议解析获取攻击字段并转化为数字矩阵,将以二进制流表示的攻击字段,以字节为单位将数据转化为数字矩阵,并使用掩码处理不同长度的字段。
[0029]由于单个字节可以表示共256个字符,因此在通常情况下,攻击字段中不会出现全部256个不同的字符。对于攻击字段中256个字符未全部出现的情况,将所有出现的字符进行相应的排序并记录序号-字符的对应表,最终在数字矩阵中保存相应字符的序号得到数字信号矩阵。数字矩阵的每一行表示一条攻击字段,通过查找序号-字符对应表可以获取原攻击字段。所得数字序号矩阵中的序号与原攻击字段中的字符一一对应。获得数字矩阵后,可以基于字符出现的频次统计信息设置阈值,将一些出现较少的字符以统一的标记序号表示,并更新序号-字符对应表和数字序号矩阵。更新的数字序号矩阵中的序号可对应于原攻击字段中的一个或多个字符。更新数字矩阵后,对于各条攻击字段长度不一的情况,以掩码矩阵的形式,记录并处理不同长度的字段。
[0030]例如攻击信息包括3000条如下的信息:
[0031]mail[#post_render][]=passthru&本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种攻击特征提取的方法,其特征在于,包括如下步骤:步骤一、通过协议解析获取攻击字段,将以二进制流表示的攻击字段以字节为单位将数据转化为数字矩阵,并使用掩码处理不同长度的字段;步骤二、确定作为分隔符的特征字符,通过特殊字符对字段模式进行初步分隔;步骤三:对分隔完毕的数据进行统计分析,统计所有对应分隔符间的字符串的出现频次信息,提取出常见的关键字段,设置相应的阈值,将一些较常出现的字符串以统一的标记序号表示,并更新序号-字符/字符串对应表和数字序号矩阵,以获得初步提取的关键攻击字段;步骤四:在更新的数字矩阵中统计重复出现的字段组合,选择一个字符、字符串组合的长度n,统计长度为n的字符、字符串组合的出现频次,设置相应的阈值,提取出现频次较多的字符、字符串的组合,并合并邻近的组合,以获得最终提取特征信息;步骤五:建立攻击特征分类模型,并在此基础上通过递归神经网络(RNN)模型的训练和应用,提取已知和未知的攻击字段中与攻击相关的关键特征,并预测已知和未知的攻击信息的攻击类型。2.如权利要求1所述的一种攻击特征提取的方法,其特征在于:所述步骤一中对于攻击字段中256个字符未全部出现的情况,将所有出现的字符进行相应的排序并记录序号-字符的对应表,最终在数字矩阵中保存相应字符的序号得到数字信号矩阵,数字矩阵的每一行表示一条攻击字段,通过查找序号-字符对应表可以获取原攻击字段,所得数字序号矩阵中的序号与原攻击字段中的字符一一对应。3.如权利要求2所述...

【专利技术属性】
技术研发人员:王高翃贾宝林朱连凯连栋王英陆炜张家鹏陈政熙
申请(专利权)人:上海工业自动化仪表研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1