基于动态时间阈值的大数据平台会话识别方法技术

技术编号:16547195 阅读:156 留言:0更新日期:2017-11-11 11:56
本发明专利技术涉及一种基于动态时间阈值的大数据平台会话识别方法,包括以下步骤:1、初始化页面时间阈值集合

Session recognition method for big data platform based on dynamic time threshold

The invention relates to a method for identifying large data platform sessions based on dynamic time threshold, which comprises the following steps: 1. Initializing a page time threshold set

【技术实现步骤摘要】
基于动态时间阈值的大数据平台会话识别方法
本专利技术涉及大数据平台异常检测
,特别涉及一种基于动态时间阈值的大数据平台会话识别方法。
技术介绍
随着大数据技术的飞速发展,大数据平台架构变得愈发复杂,而大数据平台对新风险的安全需求也在持续增加。利用异常检测技术保证大数据平台的安全性是一种有效的解决方式,而对用户日志进行精准的会话识别具有重要的意义。一方面,可利用会话异常模型检测出会话异常;另一方面,可根据会话可疑度对用户会话进行模式挖掘。日志挖掘的步骤主要包括数据预处理、模式识别和模式分析,其中数据预处理是首要阶段。数据预处理主要包括数据清洗、用户识别、会话识别和路径补充。会话识别算法的好坏直接影响着后续对会话序列建模的工作,从而决定能否为异常检测提供有意义的支持。目前,会话识别的方法很多。按照对用户访问行为的不同假设,会话识别的方法可分为基于时间、基于导航、基于语义这三类方法。基于导航的方法主要分析用户整个访问过程,并需要寻找访问过程中断开的位置,并从URL中挖掘可以反映用户行为的信息。这类方法主要包括基于引用的方法和基于网络拓扑结构的方法。基于网络拓扑结构的方法比基于引用的方法划分的粒度更小,但是不同用户在相同时间访问相同网页的后续行为会不同,因此这类方法不能模仿人的智能。而基于语义的方法为模拟人的智能提供了可能性。这类方法需要先构建语义本体,再建立用户会话模型,最后将语义接近到一定程度的请求资源划分到同一个会话中。这类方法可划分为直接使用URL信息和使用URL请求的页面内容。一方面,这类方法对URL信息要求比较完整;另一方面,虽然这种方法在模拟用户真实网络行为有一定的突破,但是由于存在局限性和准确率较低的问题,目前这类方法的应用并还没有很广泛。而最常用的基于时间的会话识别方法是以时间阈值为基准来确定会话边界,优点是这类方法在原理和实现上相对另两种方法简单,关键的难点是如何有效合理地设置时间阈值。该方法也可大致分为以会话时长为依据和以相邻请求时长为依据这两类。并且以相邻请求时长为依据的方法比以会话时长为依据的方法更加接近用户真实行为。在基于时间的方法中,Fernandez等人使用30min作为整个会话时长切分的时间阈值,而JonesR等人使用25.5min作为划分时长依据,甚至NeelimaG等人创新性提出使用60min作为切分阈值。这类划分方式认为所有会话持有相同的时间,划分相对比较粗糙。在以相邻请求时长为依据的方法中需要预先设置一时间间隔阈值,根据判断相邻两次请求的时间是否超过这一阈值确定同一用户相邻两次的请求是否属于同一会话,而时间间隔阈值通常设置为10min。这种设置固定阈值方法的不足在于一方面可能使原本在同一会话中的记录被划分到不同的会话中,另一方面也可能使原本不在同一会话中的记录划分到同一会话中。殷贤亮等人提出了一种改进的基于时间间隔的方法,考虑到不同页面的差异性,通过根据页面内容及站点结构引入链接内容比作为因变量对该阈值进行调整。但是不同的用户会有不同的兴趣和习惯,这样的差异也将会导致访问时间的不同,上述这几种方法并没有考虑到这个层面。
技术实现思路
本专利技术的目的在于提供一种基于动态时间阈值的大数据平台会话识别方法,该方法可以提高会话识别的精确率和查全率。为实现上述目的,本专利技术的技术方案是:一种基于动态时间阈值的大数据平台会话识别方法,包括以下步骤:(1)初始化页面时间阈值集合Γ={δ1,δ2,…,δn},δk表示第k个页面的页面时间阈值,k∈{1,2,…,n};(2)从一用户请求记录的集合H={h1,h2,…,hm}中取出请求记录hi,i∈{1,2,…,m},并判断请求记录hi是否为空,是则从集合H中取出下一请求记录继续进行判断,否则转下一步骤;(3)判断当前请求记录与前一个请求记录是否属于同一个用户,是则转下一步骤,否则将当前请求记录加入新会话中,并按照用户访问时间阈值的计算公式和设置权重公式更新集合Γ,然后返回步骤(2)取出下一请求记录继续进行判断;(4)计算请求记录hi的访问时间tnew,并判断是否满足访问时间tnew≤δj,δj表示请求记录hi对应当前页面的页面时间阈值,是则将该请求记录加入当前会话Sc中并转下一步骤,否则将该请求记录加入新会话Sc+1中并更新集合Γ,然后返回步骤(2)取出下一请求记录继续进行判断;(5)如果访问时间tnew满足时间阈值调整的条件,即访问时间tnew超过设定的间隔时间,则更新集合Γ,然后返回步骤(2)取出下一请求记录继续进行判断,否则直接返回步骤(2)取出下一请求记录继续进行判断。进一步地,按照用户访问时间阈值的计算公式和权重公式更新集合Γ的方法为:按如下方法计算页面访问时间阈值δ’:计算链接内容比RLCR:RLCR=(a1×L1+a2×L0)/(L1+L0)其中,L1表示页面的链入数,即链接到该页面的页面个数,L0表示页面的链出数,即该页面包含的链接个数,a1表示链入数的权值,a2表示链出数的权值,a1+a2=1;采用下式将RLCR值映射到(0,1):β=1-exp(RLCR)其中,β为RLCR值对页面访问时间阈值δ’的影响因子;页面访问时间阈值δ’为:δ’=α×t×(1+β)其中,α为平滑系数,t为页面的实际访问时间;按如下方法计算用户访问时间阈值δ’’:设t0为初始的页面访问时间阈值,tnew表示将新页面添加到当前会话或新会话中的访问时间;平均时间t’表达式为:t’=(t0+tnew)/2定义调整因子η为:η=(t’-t0)/t0=(tnew-t0)/2t0将调整因子适用于所有页面,δ0表示上次调整后的时间阈值,则调整后的用户访问时间阈值δ’’的计算公式为:δ’’=δ0(1+η)=δ0(tnew+t0)/2t0按如下权重公式设置页面时间阈值δk:δk=aδ’+(1-a)δ’’其中,a表示页面访问时间阈值δ’和用户访问时间阈值δ’’之间的权重因子;计算出页面时间阈值δk后,即可得到更新后的页面时间阈值集合Γ。本专利技术的有益效果是提出了一种基于相邻请求的动态调整时间间隔阈值的会话识别方法,该方法通过结合站点页面因子和用户访问页面时间的平均因子,对时间阈值进行动态调整划分会话,从而可使会话识别的精确率和查全率得到较大的提高。附图说明图1是本专利技术实施例的实现流程图。具体实施方式下面结合附图及具体实施例对本专利技术作进一步的详细说明。本专利技术基于动态时间阈值的大数据平台会话识别方法(asessionidentificationalgorithmbasedontheDynamicAdjustiveIntervalTimethreSholdofadjacentrequests,DAITS),同时考虑页面内容和用户差异性并在两者间加入合适的权重,如图1所示,包括以下步骤:(1)初始化页面时间阈值集合Γ={δ1,δ2,…,δn},δk表示第k个页面的页面时间阈值,k∈{1,2,…,n};(2)从一用户请求记录的集合H={h1,h2,…,hm}中取出请求记录hi,i∈{1,2,…,m},并判断请求记录hi是否为空,是则从集合H中取出下一请求记录继续进行判断,否则转下一步骤;(3)判断当前请求记录与前一个请求记录是否属于同一个用户,是则转下一步骤,否则将当本文档来自技高网
...
基于动态时间阈值的大数据平台会话识别方法

【技术保护点】
一种基于动态时间阈值的大数据平台会话识别方法,其特征在于,包括以下步骤:(1)初始化页面时间阈值集合

【技术特征摘要】
1.一种基于动态时间阈值的大数据平台会话识别方法,其特征在于,包括以下步骤:(1)初始化页面时间阈值集合Γ={δ1,δ2,…,δn},δk表示第k个页面的页面时间阈值,k∈{1,2,…,n};(2)从一用户请求记录的集合H={h1,h2,…,hm}中取出请求记录hi,i∈{1,2,…,m},并判断请求记录hi是否为空,是则从集合H中取出下一请求记录继续进行判断,否则转下一步骤;(3)判断当前请求记录与前一个请求记录是否属于同一个用户,是则转下一步骤,否则将当前请求记录加入新会话中,并按照用户访问时间阈值的计算公式和设置权重公式更新集合Γ,然后返回步骤(2)取出下一请求记录继续进行判断;(4)计算请求记录hi的访问时间tnew,并判断是否满足访问时间tnew≤δj,δj表示请求记录hi对应当前页面的页面时间阈值,是则将该请求记录加入当前会话Sc中并转下一步骤,否则将该请求记录加入新会话Sc+1中并更新集合Γ,然后返回步骤(2)取出下一请求记录继续进行判断;(5)如果访问时间tnew满足时间阈值调整的条件,即访问时间tnew超过设定的间隔时间,则更新集合Γ,然后返回步骤(2)取出下一请求记录继续进行判断,否则直接返回步骤(2)取出下一请求记录继续进行判断。2.根据权利要求1所述的基于动态时间阈值的大数据平台会话识别方法,其特征在于...

【专利技术属性】
技术研发人员:肖如良曾令倪友聪杜欣蔡声镇
申请(专利权)人:福建师范大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1