The invention discloses an MH \u2011 LSTM anomaly detection method based on the similarity of session features. By setting up a sliding window to collect the user's Web access data, using min \u2011 hash to process the web access data and extract the sequence features; then using the LSTM time series classification algorithm to train the detection model; finally, using the trained detection model to carry out the captured web session flow data Detection and location of abnormal users. The invention can not only effectively adapt to the challenges under the streaming data environment, but also maintain high detection rate and recall rate.
【技术实现步骤摘要】
基于会话特征相似性的MH-LSTM异常检测方法
本专利技术涉及WEB流数据的异常检测领域,尤其涉及基于会话特征相似性的MH-LSTM异常检测方法。
技术介绍
伴随着人们对Web应用的依赖加剧,Web服务在为人们带来便利的同时,其安全问题成为了所有人类的共同威胁,如何抵御Web的各种攻击已经成为全球领域的最大挑战之一。一般来说,安全问题的起初征兆都表现为异常信息,通过异常检测尽早的发现异常信息有助于及时止损。如何及时从Web流数据中检测和定位异常是当下的一个研究热点。一般来说,目前的国内外异常检测研究主要包含以下三个方面的内容:(1)基于统计分析的异常检测算法,在面对数据分布复杂的大数据集时,由于数据分布轮廓描绘困难,其检测能力明显下降,且检测阈值的设定一直是影响检测性能的一大要素;(2)基于规则的异常检测算法,能够很好的保证异常检测的准确性,但是如何及时更新规则是该方法存在的一个问题;(3)基于数据挖掘的异常检测算法,通常需要大量带标签的数据用于模型训练,但是实际情况中各领域带标签的数据往往难以获得,且属于无监督学习领域,模型的准确率相比于其他方法较弱。
技术实现思路
本专利技术的目的在于提供基于会话特征相似性的MH-LSTM异常检测方法。本专利技术采用的技术方案是:基于会话特征相似性的MH-LSTM异常检测方法,通过设立滑动窗口以收集用户的Web访问数据,利用Min-Hash对Web访问数据进行处理提取序列特征;然后利用LSTM的时间序列分类算法进行检测模型的训练;最后利用训练好的检测模型对抓取的Web会话流数据进行异常用户的检测和定位。进一步地,检测方法包 ...
【技术保护点】
1.基于会话特征相似性的MH‑LSTM异常检测方法,其特征在于:方法为通过设立滑动窗口以收集用户的Web访问数据,利用Min‑Hash对Web访问数据进行处理提取序列特征;然后利用LSTM的时间序列分类算法进行检测模型的训练;最后利用训练好的检测模型对抓取的Web会话流数据进行异常用户的检测和定位。
【技术特征摘要】
1.基于会话特征相似性的MH-LSTM异常检测方法,其特征在于:方法为通过设立滑动窗口以收集用户的Web访问数据,利用Min-Hash对Web访问数据进行处理提取序列特征;然后利用LSTM的时间序列分类算法进行检测模型的训练;最后利用训练好的检测模型对抓取的Web会话流数据进行异常用户的检测和定位。2.根据权利要求1所述的基于会话特征相似性的MH-LSTM异常检测方法,其特征在于:检测方法包括离线训练阶段和在线检测阶段,具体步骤如下:离线训练阶段:步骤1-1,获取训练用的Web访问数据,并采用Min-Hash对Web访问数据进行预处理,提取序列特征,得到训练样本,步骤1-2,将训练样本提取的序列特征输入LSTM网络进行离线训练,步骤1-3,采用多层网格搜索和交叉验证的方法获取LSTM网络的最优参数,得训练好的检测模型;在线检测阶段:步骤2-1,建立滑动窗口从Web会话流数据中截取滑动窗口内的Web访问数据,步骤2-2,采用Min-Hash对截取的滑动窗口内的Web访问数据进行预处理,提取序列特征,得到检测样本,步骤2-3,将检测样本输入训练好的检测模型;步骤2-4,训练好的检测模型检测和定位异常数据并输出结果。3.根据权利要求2所述的基于会话特征相似性的MH-LSTM异常检测方法,其特征在于:步骤1-1或步骤2-2中的数据预处理分为数据清理、用户识别和会话识别,数据清理将访问数据只保留html和htm的访问记录,用户识别将同一个IP地址视为同一个用户,基于时间阈值的启发式方法将用户停留页面时间超过设定时间阈值的访问记录视为...
【专利技术属性】
技术研发人员:肖如良,邹利琼,蔡声镇,苏家威,杜欣,
申请(专利权)人:福建师范大学,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。