一种基于深度自编码器的HTTP流量异常检测方法技术

技术编号:36110669 阅读:43 留言:0更新日期:2022-12-28 14:13
本发明专利技术公开了一种基于深度自编码器的HTTP流量异常检测方法,具体涉及网络通信安全领域,包括:S1、数据采集;S2、数据处理;S3、向量化表示;S4、异常样本剔除;S5、训练异常流量识别模型和S6、异常流量检测。本发明专利技术通过将HTTP流量事件视为包含语义信息的文本,经过自然语言处理相关技术的预处理操作后,使用词袋模型进行向量化表示,并在使用聚类算法剔除异常样本后,输入深度自编码器模型进行训练,得到异常流量识别模型,用于HTTP流量异常检测,借助自然语言处理领域算法进行分析和处理,提出应用深度自编码器模型对HTTP流量事件进行分析和处理,并实现了深度自编码器模型在HTTP流量事件数据集上的训练技术方法及异常检测技术方法。方法。方法。

【技术实现步骤摘要】
一种基于深度自编码器的HTTP流量异常检测方法


[0001]本专利技术涉及网络通信安全
,更具体地说,本专利技术涉及一种基于深度自编码器的HTTP流量异常检测方法。

技术介绍

[0002]互联网技术的飞速发展,使人们越来越依赖互联网服务,随之产生了海量的流量数据。从海量数据中识别异常流量,变得更加重要。随着机器学习的发展和应用,异常流量识别方法也从传统的WAF工具转向了基于机器学习的方法。
[0003]基于机器学习的异常流量检测方法,大致可分为两类:有监督的分类方法和无监督的异常检测方法。常用的分类方法有KNN,SVM,决策树等。不同分类方法的分类目标不同,比如SVM的目标是寻找一个能将正负样本最大程度分开的最优超平面,决策树则是寻找对特征属性进行划分的一系列决策规则集合。
[0004]这类方法的缺点是,对数据要求较高,需要足够的带有标签的样本数据。但在实际业务中,异常数据较少,数据标注成本高,很难获取带有标签的数据。并且,分类方法只能识别已知的异常,对未知的异常无法识别。常用的异常检测方法有孤立森林,one

class SVM,LOF等,这类方法无需样本标签,通常需要人工构造特征,在正常数据上进行训练。因为没有标签数据,模型无法根据标签学习,所以效果的优劣非常依赖特征的设计,对人工专业领域的知识和经验要求较高。

技术实现思路

[0005]为了克服现有技术的上述缺陷,本专利技术的实施例提供一种基于深度自编码器的HTTP流量异常检测方法,本专利技术所要解决的技术问题是:现有的异常流量检测方法异常数据较少,数据标注成本高,很难获取带有标签的数据。
[0006]为实现上述目的,本专利技术提供如下技术方案:一种基于深度自编码器的HTTP流量异常检测方法,包括具体检测步骤如下:
[0007]S1、数据采集:接入流量采集或解析设备,解析流量获得HTTP流量事件;对最终得到的HTTP流量事件进行下一步处理;
[0008]S2、数据处理:HTTP流量事件包括请求(Request)部分和响应(Response)部分;抽取Request部分和Response部分中HTTP协议所涵盖的各类文本内容,进行文本组合,得到语义不变文本,该文本用于表达对应的HTTP流量事件;然后对HTTP流量事件的语义不变文本进行随机形态字符串检测替换、字符泛化和多自然语言词汇拆分的相关文本变换操作后,得到标准化文本;
[0009]S3、向量化表示:对经过上述步骤S1

S2过程处理后的得到的标准化文本,统计所有单词的出现次数,将出现次数较多的词作为特征,使用词袋模型,对每条文本数据进行向量化表示,每条数据表示成一维向量;特征值计算方法参考自然语言处理
的经验或根据需求自定义;
[0010]S4、异常样本剔除:将向量化表示的数据输入聚类模型进行训练;用训练好的聚类模型对数据进行聚类,通过从类簇中抽样的方式,对聚类结果进行验证;剔除包含异常数据的簇,将剩余数据作为训练数据;
[0011]S5、训练异常流量识别模型:将训练数据输入深度自编码器模型进行训练;深度自编码器基于正常数据,通过自监督的方式对输入变量进行重构;正常数据之间较为相似,重构误差较小,而异常数据跟正常数据差异较大,重构后的误差通常较大;预测时,通过计算重构变量和输入变量的误差是否超过阈值,实现异常流量识别;其中,阈值的设定可结合训练数据的异常分数,采取多种方式制定;
[0012]S6、异常流量检测:用训练好的异常流量识别模型对新流量进行检测,识别异常流量。
[0013]在一个优选的实施方式中,所述步骤S1数据采集中根据自定义策略对HTTP流量事件进行采样、过滤、剔除以降低整个模型构建过程的内存占用或时间消耗;
[0014]采样策略围绕以保证HTTP流量事件内容多样性为目标进行设计。
[0015]在一个优选的实施方式中,所述步骤S2中具体流程如下:
[0016]S2.1:对每条HTTP流量事件,从Request部分中抽取Path,Query和Body位置的文本内容,从Response部分中抽取Body位置的文本内容;将抽取的各文本内容按照统一的顺序组合成一条文本,得到语义不变文本;经过多类通用实验数据场景验证;
[0017]S2.2、字符泛化:对每条HTTP流量事件对应的语义不变文本中的特殊字符进行泛化,消除特殊字符的对文本语义的影响;其中特殊字符包含数字、中文或特殊符号的类型字符;
[0018]S2.3、随机形态字符串检测替换:在准备好的数据集上训练马尔可夫模型,用训练好的马尔可夫模型进行随机字符串识别,对识别到的随机形态字符串进行标准字符串替换;
[0019]S2.4、自然语言词汇拆分:对经过上述步骤S2.1

S2.3的过程处理后得到的文本,进行字符串语义识别、拆分和转换;
[0020]S2.5、其他文本处理操作:对经过上述过程处理后得到的文本,选择进行其他文本处理操作以满足性能和效果目标。
[0021]在一个优选的实施方式中,所述步骤S3的具体流程如下:
[0022]S3.1:从数据集中统计不同单词出现的次数,将出现次数较高的单词作为特征词典;
[0023]S3.2:将每条数据表示成词典长度的向量。
[0024]在一个优选的实施方式中,所述步骤S4中聚类算法从Kmeans或DBSCAN的成熟算法中选择。
[0025]在一个优选的实施方式中,所述步骤S5中深度自编码器有多层神经网络结构,由编码器和解码器组成;编码器将输入变量编码x为包含重要信息的低维中间变量z,解码器将中间变量z还原为重构变量公式如下:
[0026][0027]本专利技术的技术效果和优点:
[0028]本专利技术将HTTP流量事件视为包含语义信息的文本,经过自然语言处理相关技术的预处理操作后,使用词袋模型进行向量化表示,并在使用聚类算法剔除异常样本后,输入深度自编码器模型进行训练,得到异常流量识别模型,用于HTTP流量异常检测,借助自然语言处理领域算法进行分析和处理,提出应用深度自编码器模型对HTTP流量事件进行分析和处理,并实现了深度自编码器模型在HTTP流量事件数据集上的训练技术方法及异常检测技术方法。
附图说明
[0029]图1为本专利技术的深度自编码器原理示意图。
[0030]图2为本专利技术的异常流量识别模型训练流程图。
[0031]图3为本专利技术的异常流量检测流程图。
具体实施方式
[0032]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0033]本专利技术提供了一种基于深度自编码器的HTTP流量异常检测方法,具体检测步骤如下:
[0034本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度自编码器的HTTP流量异常检测方法,其特征在于,具体检测步骤如下:S1、数据采集:接入流量采集或解析设备,解析流量获得HTTP流量事件;对最终得到的HTTP流量事件进行下一步处理;S2、数据处理:HTTP流量事件包括请求部分和响应部分;抽取请求部分和响应部分中HTTP协议所涵盖的各类文本内容,进行文本组合,得到语义不变文本;然后对HTTP流量事件的语义不变文本进行随机形态字符串检测替换、字符泛化和多自然语言词汇拆分的相关文本变换操作后,得到标准化文本;S3、向量化表示:对经过上述步骤S1

S2过程处理后的得到的标准化文本,统计所有单词的出现次数,将出现次数较多的词作为特征,使用词袋模型,对每条文本数据进行向量化表示,每条数据表示成一维向量;特征值计算方法参考自然语言处理技术领域的经验或根据需求自定义;S4、异常样本剔除:将向量化表示的数据输入聚类模型进行训练;用训练好的聚类模型对数据进行聚类,通过从类簇中抽样的方式,对聚类结果进行验证;剔除包含异常数据的簇,将剩余数据作为训练数据;S5、训练异常流量识别模型:将训练数据输入深度自编码器模型进行训练;深度自编码器基于正常数据,通过自监督的方式对输入变量进行重构;预测时,通过计算重构变量和输入变量的误差是否超过阈值,阈值的设定可结合训练数据的异常分数,采取多种方式制定;S6、异常流量检测:用训练好的异常流量识别模型对新流量进行检测,识别异常流量。2.根据权利要求1所述的一种基于深度自编码器的HTTP流量异常检测方法,其特征在于:所述步骤S1数据采集中根据自定义策略对HTTP流量事件进行采样、过滤、剔除以降低整个模型构建过程的内存占用或时间消耗;采样策略围绕以保证HTTP流量事件内容多样性为目标进行设计。3.根据权利要求1所述的一种...

【专利技术属性】
技术研发人员:杨梦月栾尚聪
申请(专利权)人:全知科技杭州有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1