基于会话特征相似性的MH-LSTM异常检测方法技术

技术编号:22504714 阅读:43 留言:0更新日期:2019-11-09 03:23
本发明专利技术公开基于会话特征相似性的MH‑LSTM异常检测方法,通过设立滑动窗口以收集用户的Web访问数据,利用Min‑Hash对Web访问数据进行处理提取序列特征;然后利用LSTM的时间序列分类算法进行检测模型的训练;最后利用训练好的检测模型对抓取的Web会话流数据进行异常用户的检测和定位。本发明专利技术不仅能够有效适应流数据环境下的挑战,且能够保持较高的检测率和召回率。

Mh-lstm anomaly detection method based on session feature similarity

The invention discloses an MH \u2011 LSTM anomaly detection method based on the similarity of session features. By setting up a sliding window to collect the user's Web access data, using min \u2011 hash to process the web access data and extract the sequence features; then using the LSTM time series classification algorithm to train the detection model; finally, using the trained detection model to carry out the captured web session flow data Detection and location of abnormal users. The invention can not only effectively adapt to the challenges under the streaming data environment, but also maintain high detection rate and recall rate.

【技术实现步骤摘要】
基于会话特征相似性的MH-LSTM异常检测方法
本专利技术涉及WEB流数据的异常检测领域,尤其涉及基于会话特征相似性的MH-LSTM异常检测方法。
技术介绍
伴随着人们对Web应用的依赖加剧,Web服务在为人们带来便利的同时,其安全问题成为了所有人类的共同威胁,如何抵御Web的各种攻击已经成为全球领域的最大挑战之一。一般来说,安全问题的起初征兆都表现为异常信息,通过异常检测尽早的发现异常信息有助于及时止损。如何及时从Web流数据中检测和定位异常是当下的一个研究热点。一般来说,目前的国内外异常检测研究主要包含以下三个方面的内容:(1)基于统计分析的异常检测算法,在面对数据分布复杂的大数据集时,由于数据分布轮廓描绘困难,其检测能力明显下降,且检测阈值的设定一直是影响检测性能的一大要素;(2)基于规则的异常检测算法,能够很好的保证异常检测的准确性,但是如何及时更新规则是该方法存在的一个问题;(3)基于数据挖掘的异常检测算法,通常需要大量带标签的数据用于模型训练,但是实际情况中各领域带标签的数据往往难以获得,且属于无监督学习领域,模型的准确率相比于其他方法较弱。
技术实现思路
本专利技术的目的在于提供基于会话特征相似性的MH-LSTM异常检测方法。本专利技术采用的技术方案是:基于会话特征相似性的MH-LSTM异常检测方法,通过设立滑动窗口以收集用户的Web访问数据,利用Min-Hash对Web访问数据进行处理提取序列特征;然后利用LSTM的时间序列分类算法进行检测模型的训练;最后利用训练好的检测模型对抓取的Web会话流数据进行异常用户的检测和定位。进一步地,检测方法包括离线训练阶段和在线检测阶段,具体步骤如下:离线训练阶段:步骤1-1,获取训练用的Web访问数据,并采用Min-Hash对Web访问数据进行预处理,提取序列特征,得到训练样本,步骤1-2,将训练样本提取的序列特征输入LSTM网络进行离线训练,步骤1-3,采用多层网格搜索和交叉验证的方法获取LSTM网络的最优参数,得训练好的检测模型;在线检测阶段:步骤2-1,建立滑动窗口从流数据中截取滑动窗口内的Web访问数据,步骤2-2,采用Min-Hash对截取的滑动窗口内的Web访问数据进行预处理,提取序列特征,得到检测样本,步骤2-3,将检测样本输入训练好的检测模型;步骤2-4,训练好的检测模型检测和定位异常数据并输出结果。进一步地,步骤1-1或步骤2-2中的数据预处理分为数据清理、用户识别和会话识别,数据清理将访问数据只保留html和htm的访问记录,用户识别将同一个IP地址视为同一个用户,基于时间阈值的启发式方法将用户停留页面时间超过设定时间阈值的访问记录视为新会话。会话识别是用户访问行为分析的基础和关键工作,会话识别准确度对于识别和发现用户的信息需求具有决定性的影响。会话是指用户在一次访问过程中所访问的页面序列,它代表了用户对服务器的一次有效访问。目前的会话识别方法都是启发式的。大致可以分为基于时间阈值的启发式方法和基于引用的启发式方法这两类。进一步地,步骤1-1或步骤2-2中的数据预处理后的数据格式如下:{useri:session1,session2,…sessionk|1≤i≤m,1≤k≤n}其中,useri为第i个用户i,m为用户数,n为单个用户最多会话数,sessionk为第k个会话。进一步地,步骤1-1或步骤2-2中采用Min-Hash生成签名信息的方式将访问数据进行转换,数据处理完成后格式如下:{user1:session_MinHash,user2:session_MinHash,…,useri:session_MinHash,…,userm:session_MinHash|1≤i≤m}其中,useri为第i个用户i,m为用户数。采用Min-Hash不仅保留了数据的相似性特征,而且将数据的维度进行了一定程度上的降低,提高了计算效率。假设存在m个用户。进一步地,步骤1-2中LSTM网络包括嵌入层、LSTM模型和全连接层,LSTM模型包括输入层、隐藏层和输出层,嵌入层将单个长的序列转变为多个固定的短序列,输入层从嵌入层接收数据并传输至隐藏层,LSTM模型具有多个隐藏层,每个隐藏层为一个特征表示层,当前隐藏层为下个隐藏层的输入,迭代训练使得隐藏层权重不断调整直至网络收敛,输出层将LSTM模型的预测值输出,全连接层为两个,且两个全连接层之间加入Dropout层,全连接层将LSTM模型输出层的输出转换为label标签,用以表示输入的序列是否异常序列。本专利技术采用以上技术方案,首先采取滑动窗口的方式截取Web流数据中的会话数据;然后通过Min-Hash算法提取长短不一的会话序列数据中的特征,充分保有了数据的相似性特征,使得会话序列数据成为了长短一致且能够被LSTM网络处理的数据;最后将数据输入构建好的LSTM网络进行训练,使用训练好的LSTM网络来区分异常数据和正常数据,LSTM网络能够更好的提取会话序列数据的前后相关特性。本专利技术不仅能够有效适应流数据环境下的挑战,且能够保持较高的检测率和召回率。附图说明以下结合附图和具体实施方式对本专利技术做进一步详细说明;图1为本专利技术的MH-LSTM架构示意图;图2为本专利技术的LSTM架构示意图;图3为本发的在线检测阶段示意图;图4为本专利技术算法在不同会话数量下的检测性能示意图;图5为本专利技术算法在不同会话数量下的用时示意图。具体实施方式本专利技术的MH-LSTM异常检测方法主要涉及两个相关技术。(1)采用Min-Hash算法提取会话序列数据中的特征。(2)构建LSTM网络用于异常数据的检测和定位。(1)Web会话序列数据中的特征提取:Min-Hash算法是Broder提出的最小独立置换(Min-wiseIndependentPermutation)概念的简单实现,是局部敏感哈希(Locality-SensitiveHashing,LSH)的一种。LSH原本的作用是用来高效处理海量数据高维数据的最近邻问题。LSH通过一个特殊的哈希函数将两个相似度很高的数据以较高的概率映射成同一个哈希值,两个相似度低的数据以极低的概率映射成同一个哈希值。Min-Hash的具体描述为,给定一个随机哈希函数h(x),Min-Hash函数被定义为mh(υ)=argmin{h(υ[i]|υ∈V)},V是向量集,υ[i]是υ的第i个元素并且υ[i]=1,0≤i≤|υ|-1。那么对于集合A和集合B的二进制向量υ1,υ2则有如式(1)所示:传统的Min-Hash主要应用在二进制向量的场景中,例如某个用户对某个资源有过访问行为,则用1表示,否则用0。Min-Hash的结果为所有项随机排列后,最先出现1所在的值的所在行值。通过Min-Hash的方式,本专利技术为每一个用户访问行为序列生成了用户访问签名信息作为用户访问特征。如果原始的用户访问信息具有很高的相似度,那么生成的签名信息会以较大的概率被映射成同一个哈希值。所以本专利技术采用Min-Hash的方式提取Web会话序列访问特征,相较于其他处理方式,不仅降低了维度且很好的保留了用户的访问行为特征。(2)LSTM网络模型介绍:长短时记忆网络(LongShort-TermMemory,LSTM)是循环神经网络(Recurr本文档来自技高网...

【技术保护点】
1.基于会话特征相似性的MH‑LSTM异常检测方法,其特征在于:方法为通过设立滑动窗口以收集用户的Web访问数据,利用Min‑Hash对Web访问数据进行处理提取序列特征;然后利用LSTM的时间序列分类算法进行检测模型的训练;最后利用训练好的检测模型对抓取的Web会话流数据进行异常用户的检测和定位。

【技术特征摘要】
1.基于会话特征相似性的MH-LSTM异常检测方法,其特征在于:方法为通过设立滑动窗口以收集用户的Web访问数据,利用Min-Hash对Web访问数据进行处理提取序列特征;然后利用LSTM的时间序列分类算法进行检测模型的训练;最后利用训练好的检测模型对抓取的Web会话流数据进行异常用户的检测和定位。2.根据权利要求1所述的基于会话特征相似性的MH-LSTM异常检测方法,其特征在于:检测方法包括离线训练阶段和在线检测阶段,具体步骤如下:离线训练阶段:步骤1-1,获取训练用的Web访问数据,并采用Min-Hash对Web访问数据进行预处理,提取序列特征,得到训练样本,步骤1-2,将训练样本提取的序列特征输入LSTM网络进行离线训练,步骤1-3,采用多层网格搜索和交叉验证的方法获取LSTM网络的最优参数,得训练好的检测模型;在线检测阶段:步骤2-1,建立滑动窗口从Web会话流数据中截取滑动窗口内的Web访问数据,步骤2-2,采用Min-Hash对截取的滑动窗口内的Web访问数据进行预处理,提取序列特征,得到检测样本,步骤2-3,将检测样本输入训练好的检测模型;步骤2-4,训练好的检测模型检测和定位异常数据并输出结果。3.根据权利要求2所述的基于会话特征相似性的MH-LSTM异常检测方法,其特征在于:步骤1-1或步骤2-2中的数据预处理分为数据清理、用户识别和会话识别,数据清理将访问数据只保留html和htm的访问记录,用户识别将同一个IP地址视为同一个用户,基于时间阈值的启发式方法将用户停留页面时间超过设定时间阈值的访问记录视为...

【专利技术属性】
技术研发人员:肖如良邹利琼蔡声镇苏家威杜欣
申请(专利权)人:福建师范大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1