一种基于大数据分析的用户活动异常检测和流量预测方法技术

技术编号:20627787 阅读:51 留言:0更新日期:2019-03-20 17:23
本发明专利技术公开了一种基于大数据分析的用户活动异常检测和流量预测方法,包括以下步骤:1)获取待定异常区域的区域编号及时段信息;2)利用历史大数据评估待定异常区域在该时段活跃度的经验累积概率曲线,然后利用经验累积概率曲线确定预测区域中各时刻的流量活跃度异常值;3)以预测区域为中心,查找与预测区域空间相邻的八个区域,然后利用相邻两个区域i,j空间相似性的衡量sim(i,j)找到预测区域的空间相似区域k,然后对预测区域时间序列的空缺值yi,t进行填补;4)对步骤3)得到的预测区域的时间序列进行流量预测,完成基于大数据分析的用户活动异常检测和流量预测,该方法能够实现对预测区域的流量准确预测。

A Method of User Activity Anomaly Detection and Traffic Prediction Based on Large Data Analysis

The invention discloses a user activity anomaly detection and traffic prediction method based on large data analysis, which includes the following steps: 1) obtaining the area number and time information of the anomaly area to be determined; 2) evaluating the empirical cumulative probability curve of the activity of the anomaly area to be determined in the time period by using historical large data, and then determining the flow at each time in the prediction area by using the empirical cumulative probability curve. Activity anomaly value; (3) Take the prediction area as the center, find eight regions adjacent to the prediction area space, then use the SIM (i, j) to measure the spatial similarity of two adjacent regions to find the spatial similarity area K of the prediction area, and then fill in the vacancy value yi, t of the prediction area time series; (4) Predict the time series of the prediction area obtained in step 3, and complete the flow prediction. User activity anomaly detection and traffic prediction based on large data analysis, this method can achieve accurate traffic prediction in the prediction area.

【技术实现步骤摘要】
一种基于大数据分析的用户活动异常检测和流量预测方法
本专利技术属于移动无线网络
,涉及一种基于大数据分析的用户活动异常检测和流量预测方法。
技术介绍
在移动无线网络中,用户体验受无线覆盖、流量负载和基站配置等多种因素影响,用户体验可能会因网络条件的变化而波动。例如,某一热点区域数据流量需求突然增长不利于用户体验,在某些情况下可能最终导致服务中断。因此,用户活动的异常检测和流量预测对于移动无线网络资源的有效分配和调整至关重要。目前,网络异常检测方法已有大量研究,基于已有工作,我们选择了基于聚类的异常检测方法。然而,我们工作区别于他们仅限于检测异常,我们增加历史大数据设定恒定阈值评估异常区域,考察已分配网络资源是否合理;并且我们加入区域流量预测,为下一步网络资源调整提供参考依据,提高资源的利用率。
技术实现思路
本专利技术的目的在于克服上述现有技术的缺点,提供了一种基于大数据分析的用户活动异常检测和流量预测方法,该方法能够实现对预测区域的流量准确预测。为达到上述目的,本专利技术所述的基于大数据分析的用户活动异常检测和流量预测方法包括以下步骤:1)利用机器学习技术对移动网络大数据CDR进行异常检测,以识别移动网络大数据CDR中的待定异常区域,然后获取待定异常区域的区域编号及时段信息;2)利用历史大数据评估待定异常区域在该时段活跃度的经验累积概率曲线,然后利用经验累积概率曲线设定经验异常概率值,当待定异常区域任一时刻的流量活跃度超过经验异常累积概率的95%时,则认定待定异常区域该时刻的流量活跃度异常,即该区域分配的资源不能满足用户活动需求;当待定异常区域任一时刻的流量活跃度小于等于经验异常累积概率的95%时,则说明待定异常区域该时刻的流量活跃度正常,该区域分配的资源能够满足用户活动需求;3)去除预测区域中异常的流量活跃度,使得预测区域的时间序列存在采样值空缺和异常值空缺,以预测区域为中心,查找与预测区域空间相邻的八个区域,然后利用相邻两个区域i,j空间相似性的衡量sim(i,j)找到预测区域的空间相似区域k,然后将预测区域时间序列的空缺值yi,t填补为以实现预测区域的时间序列中空缺值的填补;4)对步骤3)得到的预测区域的时间序列进行流量预测,完成基于大数据分析的用户活动异常检测和流量预测。相邻两个区域i,j空间相似性的衡量sim(i,j)为:根据流量预测特点改进分解模型对步骤4)得到的预测区域的时间序列进行流量预测。改进后的分解模型为:Si,t=Si,t,w+Si,t,d其中,t以小时为单位,Ti,t为区域i的趋势函数,Ti,t用来表示时间序列中趋势的变化,Si,t代表周期性的变化,Ri,t为剩余项;Si,t,w为周数据,Si,t,d表示明天的数据,P和N为预设的常数。剩余项Ri,t服从正态分布,即Ri,t=β*Ymax,Ymax代表历史数据中的最大值,β~Normal(0,1)。本专利技术具有以下有益效果:本专利技术所述的基于大数据分析的用户活动异常检测和流量预测方法在具体操作时,利用机器学习技术对移动网络大数据CDR进行异常检测,以确定待异常区域,再利用经验累积概率曲线确定待定异常区域各时刻的流量活跃度异常值,然后去除该异常值,并利用空间相似性原理对预测区域的时间序列中的空缺值进补缺,最后进行流量的预测,以达到更加合理的分配和网络资源的调整,提高资源的利用率,与已有的空缺值填补方案相比,本专利技术利用空间相似区域的值填补空缺值,使填补值更加接近真实值,提高区域流量预测的准确度。附图说明图1为本专利技术中聚类异常检测框架图;图2为利用机器学习技术对移动网络大数据对进行异常检测时的示意图;图3为选择待定异常区域5161进行分析得到的ECDF曲线图;图4为本专利技术中空间相似区域划分得到的区域5160的相似区域示意图;图5为使用均值填补空缺值和空间相似区域填补空缺值对预测准确度影响的对比图。具体实施方式下面结合附图对本专利技术做进一步详细描述:参考图1及图2,本专利技术所述的基于大数据分析的用户活动异常检测和流量预测方法包括以下步骤:1)利用机器学习技术对移动网络大数据CDR进行异常检测,以识别移动网络大数据CDR中的待定异常区域,然后获取待定异常区域的区域编号及时段信息;2)对于某个区域某个时段的移动网络大数据CDR信息来说,与之较相似的是该地区该时段连续日期内的CDR信息,数据虽是无规律地波动,但在一个很小的正常波动范围内,把流量活跃度看作一组独立同分布的随机变量值,利用历史大数据评估待定异常区域在该时段活跃度的经验累积概率曲线,然后利用经验累积概率曲线设定经验异常概率值,当待定异常区域任一时刻的流量活跃度超过经验异常累积概率的95%时,则认定待定异常区域该时刻的流量活跃度异常,即该区域分配的资源不能满足用户活动需求;当待定异常区域任一时刻的流量活跃度小于等于经验异常累积概率的95%时,则说明待定异常区域该时刻的流量活跃度正常,该区域分配的资源能够满足用户活动需求;3)去除预测区域中异常的流量活跃度,使得预测区域的时间序列存在采样值空缺和异常值空缺,以预测区域为中心,查找与预测区域空间相邻的八个区域,然后利用相邻两个区域i,j空间相似性的衡量sim(i,j)找到预测区域的空间相似区域k,然后将预测区域时间序列的空缺值yi,t填补为以实现预测区域的时间序列中空缺值的填补;4)对步骤3)得到的预测区域的时间序列进行流量预测,完成基于大数据分析的用户活动异常检测和流量预测。相邻两个区域i,j空间相似性的衡量sim(i,j)为:根据流量预测特点改进分解模型对步骤4)得到的预测区域的时间序列进行流量预测,其中,改进后的分解模型为:Si,t=Si,t,w+Si,t,d其中,t以小时为单位,Ti,t为区域i的趋势函数,Ti,t用来表示时间序列中趋势的变化,Si,t代表周期性的变化,Ri,t为剩余项;Si,t,w为周数据,Si,t,d表示明天的数据,P和N为预设的常数,剩余项Ri,t服从正态分布,即Ri,t=β*Ymax,Ymax代表历史数据中的最大值,β~Normal(0,1)。采用步骤4介绍的预测模型对区域5160流量进行预测,采用平均绝对百分比误差MAPE(Meanabsolutepercentageerror)对预测结果进行分析,对比结果参考图5。本文档来自技高网...

【技术保护点】
1.一种基于大数据分析的用户活动异常检测和流量预测方法,其特征在于,包括以下步骤:1)利用机器学习技术对移动网络大数据CDR进行异常检测,以识别移动网络大数据CDR中的待定异常区域,然后获取待定异常区域的区域编号及时段信息;2)利用历史大数据评估待定异常区域在该时段活跃度的经验累积概率曲线,然后利用经验累积概率曲线设定经验异常概率值,当待定异常区域任一时刻的流量活跃度超过经验异常累积概率的95%时,则认定待定异常区域该时刻的流量活跃度异常,即该区域分配的资源不能满足用户活动需求;当待定异常区域任一时刻的流量活跃度小于等于经验异常累积概率的95%时,则说明待定异常区域该时刻的流量活跃度正常,该区域分配的资源能够满足用户活动需求;3)去除预测区域中异常的流量活跃度,使得预测区域的时间序列存在采样值空缺和异常值空缺,以预测区域为中心,查找与预测区域空间相邻的八个区域,然后利用相邻两个区域i,j空间相似性的衡量sim(i,j)找到预测区域的空间相似区域k,然后将预测区域时间序列的空缺值yi,t填补为

【技术特征摘要】
1.一种基于大数据分析的用户活动异常检测和流量预测方法,其特征在于,包括以下步骤:1)利用机器学习技术对移动网络大数据CDR进行异常检测,以识别移动网络大数据CDR中的待定异常区域,然后获取待定异常区域的区域编号及时段信息;2)利用历史大数据评估待定异常区域在该时段活跃度的经验累积概率曲线,然后利用经验累积概率曲线设定经验异常概率值,当待定异常区域任一时刻的流量活跃度超过经验异常累积概率的95%时,则认定待定异常区域该时刻的流量活跃度异常,即该区域分配的资源不能满足用户活动需求;当待定异常区域任一时刻的流量活跃度小于等于经验异常累积概率的95%时,则说明待定异常区域该时刻的流量活跃度正常,该区域分配的资源能够满足用户活动需求;3)去除预测区域中异常的流量活跃度,使得预测区域的时间序列存在采样值空缺和异常值空缺,以预测区域为中心,查找与预测区域空间相邻的八个区域,然后利用相邻两个区域i,j空间相似性的衡量sim(i,j)找到预测区域的空间相似区域k,然后将预测区域时间序列的空缺值yi,t填补为以实现预测区域的时间序列中空缺值的填...

【专利技术属性】
技术研发人员:孙黎朱奇奇
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1