LTE网络中的异常值检测方法及系统技术方案

技术编号:15203458 阅读:148 留言:0更新日期:2017-04-22 22:00
本发明专利技术提供一种LTE网络中的异常值检测方法及系统,通过将实测数据划分为训练集和测试集,在训练集中定义集群和参数,由聚类算法找到各数据点所属的集群,根据参数值和聚类的结果,计算每个数据点的似然值,依据设定的预警阈值、报警阈值将似然值分成异常区域、中间区域和正常区域;将已经计算出的模型应用在测试集中,每个数据点的似然值均被计算出来,并分到各区域中,从而找到测试集中的异常值。该方法及系统,在模型中增加时间轴可以更好地理解数据点在时间上的变化,进而可从多个点组成的序列中发掘多个异常值,而不是单个异常值。该方法可快速地检测出异常值,在某个异常值出现后可提前发现,且误差率很低。

Method and system for detecting outliers in LTE network

The invention provides a method and system for detecting outliers in an LTE network, through the measured data will be divided into training set and test set, in the training set is defined by the clustering algorithm and cluster parameters, find the data points in the cluster, according to the values of the parameters and results of clustering, calculate the likelihood values for each data point. According to the early warning threshold, set alarm threshold values into the abnormal area, likelihood middle region and normal region; the application of the model has been calculated in the test set, the likelihood values for each data point were calculated, and the share of the region, in order to find the abnormal value of test set. The method and the system can increase the time axis in the model to better understand the change of the data points in time, and then can discover multiple outliers from the sequence composed of multiple points, rather than a single outlier. The method can detect the abnormal value quickly, and it can be found in advance after the occurrence of an abnormal value, and the error rate is very low.

【技术实现步骤摘要】

本专利技术涉及一种LTE网络中的异常值检测方法及系统
技术介绍
在过去的几年里,通过电信网络产生的数据呈指数型增长。异常检测,旨在通过人工模式找到非预期数据模式下的异常变得很难。由于数据量的庞大,即使是业务专家也无法通过浏览日志文件找出异常现象。LTE网络的快速发展产生了越来越多的网络流量数据。因此,通过手动式处理和分析由此产生的数据流量是不大可能的。特别地,从连续的数据流中自动检测出异常值仍然是一个有待实现的挑战之一。这一领域至关重要,因为异常现象会导致网络效率的低下。的确,这些异常现象的起源可能是一个小区中的技术问题或是网络使用中的欺诈入侵,这些情况都需要尽快确认并修复。一个较好的异常值检测过程必须满足以下三个方面:首先,可以有效地检测出真实的异常现象,即使是很难手动预测的新模式下的异常现象;然后,该过程必须有较快的处理速度,并且可以减少从出现到修正后的时间长度;最后,误差率必须很低。在传统的异常检测算法中通常没有考虑时间因素。因此,这些传统的算法很难准确地检测出某些异常现象。异常检测的传统方法是使用监督算法。在这种情况下,监督方法是在包括异常值的数据集中进行训练,并试图将异常值从正常值中分离出来。这类算法存在一些主要的缺点。在大部分情况中,异常现象是罕见并多样的。一些已经鉴别出的异常现象和随之而来的新的异常现象可能不同。因此,这类监督算法并不适用于非预期的异常值类型。下面描述的是非监督算法。与监督算法不同,非监督算法使用非标签数据,这也就意味着训练数据集并不包含是否是异常值这一信息。因此,非监督算法可以自动地区分不同数据结构和模式下的异常值。该算法并不直接找出异常值,而是对数据进行描述和分组。然后从这些组别中得到异常值。该方法的主要优点在于能够检测到以前无法预见的或非预期的异常现象。对非监督学习而言主要的统计技术是聚类。聚类的目的是将数据点分离并将具有相似特征的数据点聚成一组。每一组称为一个类。每一个组都被称作一个集群(簇)。对象之间的相似性可通过解析方式进行定义。业界存在着很多不同的聚类算法,其区别在于衡量对象相似性的标准不同:可通过距离、密度或是统计分布来衡量。因此,亟待开发一种基于数据驱使系统并充分利用机器学习算法的找出异常值的方法。
技术实现思路
本专利技术的目的是提供一种LTE网络中的异常值检测方法及系统,将时间轴作为一个重要因素,从而能够检测出新模式下的异常值并且迅速准确地找到非预期下的异常值,解决现有技术中存在的或无法检测非预期的异常值,或无法从多个点组成的序列中发掘多个异常值等问题。本专利技术的技术解决方案是:一种LTE网络中的异常值检测方法,包括以下步骤,S1、加载实测数据,实测数据根据预先选定的指标产生,且具有对应的时间,将所有的数据划分为训练集和测试集,测试集和训练集相互独立,但包含相同的变量;S2、在训练集中定义集群和参数,由聚类算法找到各数据点所属的集群;S3、根据参数值和聚类的结果,计算每个数据点的似然值,在推导的模型下,一个数据点的似然值就是其概率密度;S4、依据设定的预警阈值、报警阈值将似然值分成异常区域、中间区域和正常区域;S5、将已经计算出的模型应用在测试集中,每个数据点的似然值均被计算出来,并且这些点被分到异常区域、中间区域和正常区域三个区域中,从而找到测试集中的异常值。进一步地,步骤S2中,聚类算法采用基于高斯概率的潜在语义分析模型,即GPLSA算法,已知观测值集合W和时间轴集合D,观测值集合W中的每个点都有时间轴集合D中的一个点与其对应;GPLSA算法对所有的集群k、每个时间的水平对应的值s,近似估计出未知参数mk、∑k和αk,s,mk表示第k个集群所对应的均值,∑k表示第k个集群所对应的协方差矩阵,αk,s表示时间对于水平为s、集群为k时所对应的概率;进而得出每个点最可能的集群和未知参数mk、∑k和αk,s的似然估计。进一步地,GPLSA算法具体为:S21、对所有的k、s,当t=1时,t表示进行迭代的次数,对参数αk,s赋予初值,表示第k个集群的均值初始值,表示第k个集群的初始协方差矩阵,αk,s表示时间对于水平为s、集群为k时所对应的概率;S22、对所有的k、i,当Wi=wi,Di=di时,wi、di分别表示第i个数据点的观测值、时间值,计算观测值Zi的组别为k时即Zi=k的概率和参数其中,i为数据记录数,t表示进行的第t次迭代,表示在第k次迭代中,第i个观测值属于集群k的概率;f表示在第k个集群中,均值为协方差矩阵为进行第t-1次迭代时观测值为wi的概率;表示第k个集群,时间值是di,进行第t-1次迭代的概率;表示第k个集群的第t-1次迭代时均值初始值;表示第k个集群的第t-1次迭代时方差初始值;S23、对于所有的k、s,计算其中,#Es表示集合Es的长度;表示概率值的数学期望;表示第j次迭代,下标为j的所有观测值Es(j)属于集群k的概率;Es(j)表示下标j的集合;S24、对于所有的k、s,更新概率αk,s:其中,表示概率值的数学期望;表示属于集群1时的数学期望;S25、对于所有的k,更新均值其中,wi表示第i个数据的观测值;表示在第k次迭代中,第i个观测值属于集群k的概率;S26、对于所有的k,更新协方差矩阵:其中,′表示转置,wi表示第i个数据的观测值;mk表示第K个集群所对应的均值;表示在第k次迭代中,第i个观测值属于集群k的概率;S27、令t=t+1并重复步骤S22-S27,直到某个时间T收敛,在该时间,估计出参数;S28、对于每个i,选择的k是使最大化的k,表示在第k次迭代中,第i个观测值属于集群k的概率;S29、对于每个i,估计的参数点的似然函数是:其中,P(di)表示第i个数据点时间水平为di的概率;表示在第T次迭代中,集群1的均值;表示在第T次迭代中,集群1的协方差矩阵;表示在第T次迭代中,属于集群1,时间水平为di的概率。进一步地,GPLSA算法中,假设一:假设每个观测值来自于以1-K为标记的组,记录所属组别被标记为Z=(zi)i,每个数据点的组别假设为确定的,但是未知的,定义该集合为潜在变量,将所有属于第一组的点称为集群1,以此类推,直至集群K;假设二:观测值和潜在变量的联合分布可被分解为基于样本的产品;已知观测值zi的组别为k,假设观测值wi来自于一个服从均值为向量mk,方差矩阵为∑k的高斯分布;假设三:GPLSA模型引入潜在组和时间轴之间的依存关系,已知每个水平di对应的时间轴值为s,相关的潜在值属于k的概率与参数αk,s成比例,以下式(1)将αk,s改写为方程式,其中大写字母表示随机变量:αk,s:=P(Zi=k|Di=s)式(1);假设四:潜在变量、观测值和时间轴是条件独立的,即:P(Wi=w|Di=s,Zi=k)=P(Wi=w|Zi=k)式(2)。进一步地,GPLSA算法中,集群的个数K需要提前确定,在执行完聚类模型后可对K进行调整。进一步地,步骤S4中,在异常区域的称为“强异常值”,在中间区域中设定个以上连续日期仍然存在的称为“长异常值”,在正常区域的数据点被定义为正常点,预警阈值、报警阈值根据接收数据的数量和质量进性调整。一种LTE网络中的异常值检测系统,包括数据加载模块和异常检测模块,数据加载模块:通过计算本文档来自技高网
...
LTE网络中的异常值检测方法及系统

【技术保护点】
一种LTE网络中的异常值检测方法,其特征在于:包括以下步骤,S1、加载实测数据,实测数据根据预先选定的指标产生,且具有对应的时间,将所有的数据划分为训练集和测试集,测试集和训练集相互独立,但包含相同的变量;S2、在训练集中定义集群和参数,由聚类算法找到各数据点所属的集群;S3、根据参数值和聚类的结果,计算每个数据点的似然值,在推导的模型下,一个数据点的似然值就是其概率密度;S4、依据设定的预警阈值、报警阈值将似然值分成异常区域、中间区域和正常区域;S5、将已经计算出的模型应用在测试集中,每个数据点的似然值均被计算出来,并且这些点被分到异常区域、中间区域和正常区域三个区域中,从而找到测试集中的异常值。

【技术特征摘要】
1.一种LTE网络中的异常值检测方法,其特征在于:包括以下步骤,S1、加载实测数据,实测数据根据预先选定的指标产生,且具有对应的时间,将所有的数据划分为训练集和测试集,测试集和训练集相互独立,但包含相同的变量;S2、在训练集中定义集群和参数,由聚类算法找到各数据点所属的集群;S3、根据参数值和聚类的结果,计算每个数据点的似然值,在推导的模型下,一个数据点的似然值就是其概率密度;S4、依据设定的预警阈值、报警阈值将似然值分成异常区域、中间区域和正常区域;S5、将已经计算出的模型应用在测试集中,每个数据点的似然值均被计算出来,并且这些点被分到异常区域、中间区域和正常区域三个区域中,从而找到测试集中的异常值。2.如权利要求1所述的LTE网络中的异常值检测方法,其特征在于:步骤S2中,聚类算法采用基于高斯概率的潜在语义分析模型,即GPLSA算法,已知观测值集合W和时间轴集合D,观测值集合W中的每个点都有时间轴集合D中的一个点与其对应;GPLSA算法对所有的集群k、每个时间的水平对应的值s,近似估计出未知参数mk、∑k和αk,s,mk表示第k个集群所对应的均值,∑k表示第k个集群所对应的协方差矩阵,αk,s表示时间对于水平为s、集群为k时所对应的概率;进而得出每个点最可能的集群和未知参数mk、∑k和αk,s的似然估计。3.如权利要求2所述的LTE网络中的异常值检测方法,其特征在于:GPLSA算法具体为:S21、对所有的k、s,当t=1时,t表示进行迭代的次数,对参数αk,s赋予初值,表示第k个集群的均值初始值,表示第k个集群的初始协方差矩阵,αk,s表示时间对于水平为s、集群为k时所对应的概率;S22、对所有的k、i,当Wi=wi,Di=di时,wi、di分别表示第i个数据点的观测值、时间值,计算观测值Zi的组别为k时即Zi=k的概率和参数其中,i为数据记录数,t表示进行的第t次迭代,表示在第k次迭代中,第i个观测值属于集群k的概率;f表示在第k个集群中,均值为协方差矩阵为进行第t-1次迭代时观测值为wi的概率;表示第k个集群,时间值是di,进行第t-1次迭代的概率;表示第k个集群的第t-1次迭代时均值初始值;表示第k个集群的第t-1次迭代时方差初始值;S23、对于所有的k、s,计算其中,#Es表示集合Es的长度;表示概率值的数学期望;表示第j次迭代,下标为j的所有观测值Es(j)属于集群k的概率;Es(j)表示下标j的集合;S24、对于所有的k、s,更新概率αk,s:其中,表示概率值的数学期望;表示属于集群1时的数学期望;S25、对于所有的k,更新均值其中,wi表示第i个数...

【专利技术属性】
技术研发人员:吴冬华宇特·亚历克西石路路
申请(专利权)人:南京华苏科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1