基于动态时间阈值的大数据平台会话识别方法技术

技术编号:16547195 阅读:168 留言:0更新日期:2017-11-11 11:56
本发明专利技术涉及一种基于动态时间阈值的大数据平台会话识别方法,包括以下步骤:1、初始化页面时间阈值集合

Session recognition method for big data platform based on dynamic time threshold

The invention relates to a method for identifying large data platform sessions based on dynamic time threshold, which comprises the following steps: 1. Initializing a page time threshold set

【技术实现步骤摘要】
基于动态时间阈值的大数据平台会话识别方法
本专利技术涉及大数据平台异常检测
,特别涉及一种基于动态时间阈值的大数据平台会话识别方法。
技术介绍
随着大数据技术的飞速发展,大数据平台架构变得愈发复杂,而大数据平台对新风险的安全需求也在持续增加。利用异常检测技术保证大数据平台的安全性是一种有效的解决方式,而对用户日志进行精准的会话识别具有重要的意义。一方面,可利用会话异常模型检测出会话异常;另一方面,可根据会话可疑度对用户会话进行模式挖掘。日志挖掘的步骤主要包括数据预处理、模式识别和模式分析,其中数据预处理是首要阶段。数据预处理主要包括数据清洗、用户识别、会话识别和路径补充。会话识别算法的好坏直接影响着后续对会话序列建模的工作,从而决定能否为异常检测提供有意义的支持。目前,会话识别的方法很多。按照对用户访问行为的不同假设,会话识别的方法可分为基于时间、基于导航、基于语义这三类方法。基于导航的方法主要分析用户整个访问过程,并需要寻找访问过程中断开的位置,并从URL中挖掘可以反映用户行为的信息。这类方法主要包括基于引用的方法和基于网络拓扑结构的方法。基于网络拓扑结构的方法比基于引用的方本文档来自技高网...
基于动态时间阈值的大数据平台会话识别方法

【技术保护点】
一种基于动态时间阈值的大数据平台会话识别方法,其特征在于,包括以下步骤:(1)初始化页面时间阈值集合

【技术特征摘要】
1.一种基于动态时间阈值的大数据平台会话识别方法,其特征在于,包括以下步骤:(1)初始化页面时间阈值集合Γ={δ1,δ2,…,δn},δk表示第k个页面的页面时间阈值,k∈{1,2,…,n};(2)从一用户请求记录的集合H={h1,h2,…,hm}中取出请求记录hi,i∈{1,2,…,m},并判断请求记录hi是否为空,是则从集合H中取出下一请求记录继续进行判断,否则转下一步骤;(3)判断当前请求记录与前一个请求记录是否属于同一个用户,是则转下一步骤,否则将当前请求记录加入新会话中,并按照用户访问时间阈值的计算公式和设置权重公式更新集合Γ,然后返回步骤(2)取出下一请求记录继续进行判断;(4)计算请求记录hi的访问时间tnew,并判断是否满足访问时间tnew≤δj,δj表示请求记录hi对应当前页面的页面时间阈值,是则将该请求记录加入当前会话Sc中并转下一步骤,否则将该请求记录加入新会话Sc+1中并更新集合Γ,然后返回步骤(2)取出下一请求记录继续进行判断;(5)如果访问时间tnew满足时间阈值调整的条件,即访问时间tnew超过设定的间隔时间,则更新集合Γ,然后返回步骤(2)取出下一请求记录继续进行判断,否则直接返回步骤(2)取出下一请求记录继续进行判断。2.根据权利要求1所述的基于动态时间阈值的大数据平台会话识别方法,其特征在于...

【专利技术属性】
技术研发人员:肖如良曾令倪友聪杜欣蔡声镇
申请(专利权)人:福建师范大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1