一种基于隐式马尔可夫算法的恶意攻击行为识别方法技术

技术编号:37550793 阅读:17 留言:0更新日期:2023-05-15 07:36
本发明专利技术公开了一种基于隐式马尔可夫算法的恶意攻击行为识别方法,其包括以下步骤:步骤一,获取安全日志数据,对数据进行清洗后,提取数据特征后,进行分词处理,然后进行词集模型的提取。在本发明专利技术实施过程中,能够提高识别恶意攻击的识别效率和识别准确率,并能预测未来的潜在未知的恶意攻击手段,有效防御恶意攻击规则混淆绕过的情况;由于步骤二中新的攻击数据针对检测模型进行了更近一步的训练学习,能够极大的提升恶意请求识别准确率,鉴于此,针对非恶意请求访问数据进行二次识别判定结果将会更加准确,有效的提升了攻击拦截准确率,减少攻击漏报的风险。减少攻击漏报的风险。减少攻击漏报的风险。

【技术实现步骤摘要】
一种基于隐式马尔可夫算法的恶意攻击行为识别方法


[0001]本专利技术属于计算机安全
,具体为一种基于隐式马尔可夫算法的恶意攻击行为识别方法。

技术介绍

[0002]随着计算机科学与技术的快速发展,各种高新技术在为我们的生活服务的同时,也面临着黑客层出不穷的各种攻击手段。传统的防御手段多采用正则规则匹配的方式去识别出威胁攻击,但是这种方式存在识别效率低、识别代价高、无法识别未知威胁攻击的缺点,所以如何快速高效的识别出黑客的攻击是网络安全发展研究的一个重要课题。

技术实现思路

[0003]针对上述情况,为克服现有技术的缺陷,本专利技术提供一种基于隐式马尔可夫算法的恶意攻击行为识别方法,有效的解决了
技术介绍
中的问题。
[0004]为实现上述目的,本专利技术提供如下技术方案:一种基于隐式马尔可夫算法的恶意攻击行为识别方法,其包括以下步骤:
[0005]步骤一,获取安全日志数据,对数据进行清洗后,提取数据特征后,进行分词处理,然后进行词集模型的提取,
[0006]步骤二,将步骤一中提取的词集模型进行编码序列化后推入HMM检测模型,同时所述模型为三阶HMM,分别为隐藏序列、观察序列以及泛化后的观察序列,
[0007]步骤三,通过步骤二中的识别结果进行标记,对那些标记为非恶意攻击的内容,进行二次检测。
[0008]优选的,所述步骤一中,数据特征提取只需要提取安全日志中HTTP请求数据包中的部分内容,具体如下:
[0009]URL地址
[0010]User

Agent用户使用的浏览器
[0011]POST请求数据包
[0012]优选的,所述步骤一中,将数字、字符以及超链接进行了范化处理,这样极大的减少空间向量,便于进行数据的处理,同时采用词集模型,该模型能够减少分析处理的工作量,极大的提升了运算的效率。
[0013]优选的,所述恶意访问识别采用机器学习方法隐式马尔科夫算法来检测攻击数据,具体包括:
[0014]将步骤一中提取的词集模型进行编码序列化后推入HMM检测模型,同时所述模型为三阶HMM,分别为隐藏序列、观察序列以及泛化后的观察序列,
[0015]其中隐藏序列的状态有四个,X1、X2、X3、X4;
[0016][a

zA

Z]范化为A;
[0017][0

9]范化为N;
[0018][空格]范化为Z;
[0019]其他特殊字符范化为T,
[0020]同时,Pij满足如下条件:
[0021][0022]其中Pij为的计算方法如下:
[0023]P11=P(A

A)=P(A|A)
[0024]P12=P(A

N)=P(N|A)
[0025]P13=P(A

Z)=P(Z|A)
[0026]P14=P(A

T)=P(T|A)
[0027]...
[0028]经过上述对单次事件概率的计算,通过马尔可夫预测法,针对下次网络字符串请求进行预测分析,根据马尔可夫过程的无后效性以及贝叶斯条件概率公式,有:
[0029][0030]其中,πj(k)为正常访问概率,然后将πj(k)与我们定义的的阈值T进行比较,当正常访问概率低于阈值T时,即可判定此次访问为恶意访问。
[0031]优选的,所示步骤二中的恶意请求识别能够通过当前事件发生的概率预测未来事件的发生概率,即拥有预测识别未知攻击的能力。
[0032]优选的,所述步骤三中,针对非恶意攻击的请求进行了二次识别。
[0033]与现有技术相比,本专利技术的有益效果是:
[0034]1)、本专利技术的目的其根本就是要提高识别恶意攻击的识别效率和识别准确率,并能预测未来的潜在未知的恶意攻击手段,有效防御恶意攻击规则混淆绕过的情况;
[0035]2)、由于步骤二中新的攻击数据针对检测模型进行了更近一步的训练学习,能够极大的提升恶意请求识别准确率,鉴于此,针对非恶意请求访问数据进行二次识别判定结果将会更加准确,有效的提升了攻击拦截准确率,减少攻击漏报的风险。
附图说明
[0036]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0037]图1为本专利技术基于隐式马尔科夫算法的恶意攻击检测方法的流程图。
具体实施方式
[0038]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例;基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0039]由图1给出,本专利技术公开了一种基于隐式马尔可夫算法的恶意攻击行为识别方法,包括以下步骤:
[0040]S100,通过安全日志记录提取检测数据,为了便于处理,数据格式采用json格式。
[0041][0042][0043]S200,数据清洗时,我们只需要选择uri字段,http_user_agent字段,以及POST请求数据包内容即可,例如:
[0044]"uri":"/provider/exam8/getMData1?subject_id=432and 1=1",
[0045]"http_user_agent":"Mozilla/4.0(compatible;MSIE 7.0;Windows NT6.1;WOW64;Trident/6.0;SLCC2;.NET CLR 2.0.50727;.NET CLR3.5.30729;.NET CLR 3.0.30729;Media Center PC6.0;.NET4.0C;.NET4.0E)",
[0046]S300,然后我们提取常见的攻击字符串,比如:
[0047]and 1=1、<script>alert(1)</script>、”><img src=1onerror=alert(1)>、'union all select database(),2
‑‑
+等字符串。
[0048]S400,将提取到的攻击字符串进行词集模型处理,该处理方式主要就是针对攻击特征提取的数据进行去重处理,以便提升模型分析效率,减少分析复杂度。
[0049]S500,将词集模型中的数据进行编码以及范化处理,由于本专利技术的模型为三阶HMM,所以需要将词集中的数据按照隐藏序列、观察序列以及泛化后的观察序列进行处理
[0050]其中隐藏序列的状态有四个,X1、X2、X3、X4;
[0051][a

zA...

【技术保护点】

【技术特征摘要】
1.一种基于隐式马尔可夫算法的恶意攻击行为识别方法,其特征在于:其包括以下步骤:步骤一,获取安全日志数据,对数据进行清洗后,提取数据特征后,进行分词处理,然后进行词集模型的提取,步骤二,将步骤一中提取的词集模型进行编码序列化后推入HMM检测模型,同时所述模型为三阶HMM,分别为隐藏序列、观察序列以及泛化后的观察序列,步骤三,通过步骤二中的识别结果进行标记,对那些标记为非恶意攻击的内容,进行二次检测。2.根据权利要求1所述的一种基于隐式马尔可夫算法的恶意攻击行为识别方法,其特征在于:所述步骤一中,数据特征提取只需要提取安全日志中HTTP请求数据包中的部分内容,具体如下:URL地址User

Agent用户使用的浏览器POST请求数据包。3.根据权利要求1所述的一种基于隐式马尔可夫算法的恶意攻击行为识别方法,其特征在于:所述步骤一中,将数字、字符以及超链接进行了范化处理,这样极大的减少空间向量,便于进行数据的处理,同时采用词集模型,该模型能够减少分析处理的工作量,极大的提升了运算的效率。4.根据权利要求1所述的一种基于隐式马尔可夫算法的恶意攻击行为识别方法,其特征在于:所述恶意访问识别采用机器学习方法隐式马尔科夫算法来检测攻击数据,具体包括:将步骤一中提取的词集模型进行编码序列化后推入HMM检测模型,同时所述...

【专利技术属性】
技术研发人员:田新远
申请(专利权)人:北京华清信安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1