一种基于深度自编码器的HTTP流量异常检测方法技术

技术编号：36110669 阅读：43 留言：0更新日期：2022-12-28 14:13

本发明专利技术公开了一种基于深度自编码器的HTTP流量异常检测方法，具体涉及网络通信安全领域，包括：S1、数据采集；S2、数据处理；S3、向量化表示；S4、异常样本剔除；S5、训练异常流量识别模型和S6、异常流量检测。本发明专利技术通过将HTTP流量事件视为包含语义信息的文本，经过自然语言处理相关技术的预处理操作后，使用词袋模型进行向量化表示，并在使用聚类算法剔除异常样本后，输入深度自编码器模型进行训练，得到异常流量识别模型，用于HTTP流量异常检测，借助自然语言处理领域算法进行分析和处理，提出应用深度自编码器模型对HTTP流量事件进行分析和处理，并实现了深度自编码器模型在HTTP流量事件数据集上的训练技术方法及异常检测技术方法。方法。方法。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度自编码器的HTTP流量异常检测方法

[0001]本专利技术涉及网络通信安全
，更具体地说，本专利技术涉及一种基于深度自编码器的HTTP流量异常检测方法。

技术介绍

[0002]互联网技术的飞速发展，使人们越来越依赖互联网服务，随之产生了海量的流量数据。从海量数据中识别异常流量，变得更加重要。随着机器学习的发展和应用，异常流量识别方法也从传统的WAF工具转向了基于机器学习的方法。
[0003]基于机器学习的异常流量检测方法，大致可分为两类：有监督的分类方法和无监督的异常检测方法。常用的分类方法有KNN，SVM，决策树等。不同分类方法的分类目标不同，比如SVM的目标是寻找一个能将正负样本最大程度分开的最优超平面，决策树则是寻找对特征属性进行划分的一系列决策规则集合。
[0004]这类方法的缺点是，对数据要求较高，需要足够的带有标签的样本数据。但在实际业务中，异常数据较少，数据标注成本高，很难获取带有标签的数据。并且，分类方法只能识别已知的异常，对未知的异常无法识别。常用的异常检测方法有孤立森林，one
‑
class SVM，LOF等，这类方法无需样本标签，通常需要人工构造特征，在正常数据上进行训练。因为没有标签数据，模型无法根据标签学习，所以效果的优劣非常依赖特征的设计，对人工专业领域的知识和经验要求较高。

技术实现思路

[0005]为了克服现有技术的上述缺陷，本专利技术的实施例提供一种基于深度自编码器的HTTP流量异常检测方法，本专利技术所要解决的技术...

【技术保护点】

【技术特征摘要】
1.一种基于深度自编码器的HTTP流量异常检测方法，其特征在于，具体检测步骤如下：S1、数据采集：接入流量采集或解析设备，解析流量获得HTTP流量事件；对最终得到的HTTP流量事件进行下一步处理；S2、数据处理：HTTP流量事件包括请求部分和响应部分；抽取请求部分和响应部分中HTTP协议所涵盖的各类文本内容，进行文本组合，得到语义不变文本；然后对HTTP流量事件的语义不变文本进行随机形态字符串检测替换、字符泛化和多自然语言词汇拆分的相关文本变换操作后，得到标准化文本；S3、向量化表示：对经过上述步骤S1
‑
S2过程处理后的得到的标准化文本，统计所有单词的出现次数，将出现次数较多的词作为特征，使用词袋模型，对每条文本数据进行向量化表示，每条数据表示成一维向量；特征值计算方法参考自然语言处理技术领域的经验或根据需求自定义；S4、异常样本剔除：将向量化表示的数据输入聚类模型进行训练；用训练好的聚类模型对数据进行聚类，通过从类簇中抽样的方式，对聚类结果进行验证；剔除包含异常数据的簇，将剩余数据作为训练数据；S5、训练异常流量识别模型：将训练数据输入深度自编码器模型进行训练；深度自编码器基于正常数据，通过自监督的方式对输入变量进行重构；预测时，通过计算重构变量和输入变量的误差是否超过阈值，阈值的设定可结合训练数据的异常分数，采取多种方式制定；S6、异常流量检测：用训练好的异常流量识别模型对新流量进行检测，识别异常流量。2.根据权利要求1所述的一种基于深度自编码器的HTTP流量异常检测方法，其特征在于：所述步骤S1数据采集中根据自定义策略对HTTP流量事件进行采样、过滤、剔除以降低整个模型构建过程的内存占用或时间消耗；采样策略围绕以保证HTTP流量事件内容多样性为目标进行设计。3.根据权利要求1所述的一种...

【专利技术属性】
技术研发人员：杨梦月，栾尚聪，
申请(专利权)人：全知科技杭州有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人