基于最大信息系数的大数据平台在线异常检测方法技术

技术编号:16842016 阅读:48 留言:0更新日期:2017-12-20 00:34
本发明专利技术涉及一种基于最大信息系数的大数据平台在线异常检测方法,该方法采用Spark Streaming滑动窗口机制对访问日志进行统计分析,构建用户活跃度模型,进而计算出相邻时间窗口用户活跃度序列的最大信息系数,通过比较最大信息系数与设定的阈值,判定当前时间是否出现网络异常状况。该方法有利于快速、准确且近实时地发现在线场景下的网络异常,实现了大数据平台异常检测分析系统的近实时异常检测功能。

On line anomaly detection method for large data platform based on maximum information coefficient

The invention relates to a method for anomaly detection of large data online information platform based on the maximum coefficient method, using Spark Streaming sliding window mechanism to carry on the statistical analysis of access logs, user activity model, and then calculate the maximum information coefficient of adjacent time window user activity sequence, the threshold comparison coefficient and maximum information set to determine whether the current time, the abnormal situation of network. This method is helpful for fast, accurate and near real-time detection of network anomalies in online scenarios, and realizes the near real-time anomaly detection function of anomaly detection and analysis system of big data platform.

【技术实现步骤摘要】
基于最大信息系数的大数据平台在线异常检测方法
本专利技术涉及大数据平台异常检测
,特别是一种基于最大信息系数的大数据平台在线异常检测方法。
技术介绍
平台访问攻击作为网络异常在线检测中最常见的安全威胁,通常会造成海量的突发访问行为,从而影响服务器性能,因此是大数据平台异常检测分析系统在线检测中所重点检测的网络异常。任意行为操作都会被记录在服务器日志中,正常情况下日志中各项访问记录是由人类行为操作所产生,而DDoS攻击通常是机器行为所造成。因此,通过分析日志中用户行为与机器行为访问模式的异同,构建行为模型,对当前时间间隔内数据进行特征统计,对比与机器行为的相似程度,从而确定在线场景下是否发生网络异常。传统的算法常用皮尔逊系数作为主要判别指标。然而采用统计分析的异常检测算法虽然有着较快的检测速率,但是其精度主要依赖与访问行为模式的构建与相似度指标的选择,且对于算法的计算环境部署也有较高的要求。
技术实现思路
本专利技术的目的在于提供一种基于最大信息系数的大数据平台在线异常检测方法,该方法有利于快速、准确且近实时地发现在线场景下的网络异常。为实现上述目的,本专利技术的技术方案是:一种基于本文档来自技高网...
基于最大信息系数的大数据平台在线异常检测方法

【技术保护点】
基于最大信息系数的大数据平台在线异常检测方法,其特征在于,在接入数据流后,该方法按如下步骤进行:1)对接入的数据流进行预处理,并初始化滑动窗口机制的窗口间隔和滑动时间间隔;2)等待窗口滑动;3)判断用户‑活跃度集合D{U, F}是否为空集,是则转步骤4),否则转步骤5);4)令当前时间窗口内出现的用户数为m,统计当前滑动时间间隔内各用户的活跃度,并对各用户的活跃度进行降序排序生成活跃度集合F={f1, f2, …, fm},对应用户集合U={u1, u2, …, um},构建用户‑活跃度集合D{U, F}={<u1, f1>, <u2, f2>, …, <um, ...

【技术特征摘要】
1.基于最大信息系数的大数据平台在线异常检测方法,其特征在于,在接入数据流后,该方法按如下步骤进行:1)对接入的数据流进行预处理,并初始化滑动窗口机制的窗口间隔和滑动时间间隔;2)等待窗口滑动;3)判断用户-活跃度集合D{U,F}是否为空集,是则转步骤4),否则转步骤5);4)令当前时间窗口内出现的用户数为m,统计当前滑动时间间隔内各用户的活跃度,并对各用户的活跃度进行降序排序生成活跃度集合F={f1,f2,…,fm},对应用户集合U={u1,u2,…,um},构建用户-活跃度集合D{U,F}={<u1,f1>,<u2,f2>,…,<um,fm>},其中fm表示用户um的活跃度,然后转步骤2);5)令当前时间窗口内出现的用户数为n,统计当前滑动时间间隔内各用户的活跃度,并对各用户的活跃度进行降序排序生成活跃度集合F’={f’1,f’2,…,f’m},对应用户集合U’={u’1,u’2,…,u’m},构建用户-活跃度集合D’{U’,F’}={<u’1,f’1>,<u’2,f’2>,…,<u’m,f’m>},其中f’m表示用户u’m的活跃度;6)取用户-活跃度集合D{U,F}中前j个样本对,构...

【专利技术属性】
技术研发人员:肖如良蔡声镇倪友聪杜欣林铭炜林立
申请(专利权)人:福建师范大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1