The invention provides a method and system for detecting outliers in an LTE network, through the measured data will be divided into training set and test set, in the training set is defined by the clustering algorithm and cluster parameters, find the data points in the cluster, according to the values of the parameters and results of clustering, calculate the likelihood values for each data point. According to the early warning threshold, set alarm threshold values into the abnormal area, likelihood middle region and normal region; the application of the model has been calculated in the test set, the likelihood values for each data point were calculated, and the share of the region, in order to find the abnormal value of test set. The method and the system can increase the time axis in the model to better understand the change of the data points in time, and then can discover multiple outliers from the sequence composed of multiple points, rather than a single outlier. The method can detect the abnormal value quickly, and it can be found in advance after the occurrence of an abnormal value, and the error rate is very low.
【技术实现步骤摘要】
本专利技术涉及一种LTE网络中的异常值检测方法及系统。
技术介绍
在过去的几年里,通过电信网络产生的数据呈指数型增长。异常检测,旨在通过人工模式找到非预期数据模式下的异常变得很难。由于数据量的庞大,即使是业务专家也无法通过浏览日志文件找出异常现象。LTE网络的快速发展产生了越来越多的网络流量数据。因此,通过手动式处理和分析由此产生的数据流量是不大可能的。特别地,从连续的数据流中自动检测出异常值仍然是一个有待实现的挑战之一。这一领域至关重要,因为异常现象会导致网络效率的低下。的确,这些异常现象的起源可能是一个小区中的技术问题或是网络使用中的欺诈入侵,这些情况都需要尽快确认并修复。一个较好的异常值检测过程必须满足以下三个方面:首先,可以有效地检测出真实的异常现象,即使是很难手动预测的新模式下的异常现象;然后,该过程必须有较快的处理速度,并且可以减少从出现到修正后的时间长度;最后,误差率必须很低。在传统的异常检测算法中通常没有考虑时间因素。因此,这些传统的算法很难准确地检测出某些异常现象。异常检测的传统方法是使用监督算法。在这种情况下,监督方法是在包括异常值的数据集中进行训练,并试图将异常值从正常值中分离出来。这类算法存在一些主要的缺点。在大部分情况中,异常现象是罕见并多样的。一些已经鉴别出的异常现象和随之而来的新的异常现象可能不同。因此,这类监督算法并不适用于非预期的异常值类型。下面描述的是非监督算法。与监督算法不同,非监督算法使用非标签数据,这也就意味着训练数据集并不包含是否是异常值这一信息。因此,非监督算法可以自动地区分不同数据结构和模式下的异常值。该算 ...
【技术保护点】
一种LTE网络中的异常值检测方法,其特征在于:包括以下步骤,S1、加载实测数据,实测数据根据预先选定的指标产生,且具有对应的时间,将所有的数据划分为训练集和测试集,测试集和训练集相互独立,但包含相同的变量;S2、在训练集中定义集群和参数,由聚类算法找到各数据点所属的集群;S3、根据参数值和聚类的结果,计算每个数据点的似然值,在推导的模型下,一个数据点的似然值就是其概率密度;S4、依据设定的预警阈值、报警阈值将似然值分成异常区域、中间区域和正常区域;S5、将已经计算出的模型应用在测试集中,每个数据点的似然值均被计算出来,并且这些点被分到异常区域、中间区域和正常区域三个区域中,从而找到测试集中的异常值。
【技术特征摘要】
1.一种LTE网络中的异常值检测方法,其特征在于:包括以下步骤,S1、加载实测数据,实测数据根据预先选定的指标产生,且具有对应的时间,将所有的数据划分为训练集和测试集,测试集和训练集相互独立,但包含相同的变量;S2、在训练集中定义集群和参数,由聚类算法找到各数据点所属的集群;S3、根据参数值和聚类的结果,计算每个数据点的似然值,在推导的模型下,一个数据点的似然值就是其概率密度;S4、依据设定的预警阈值、报警阈值将似然值分成异常区域、中间区域和正常区域;S5、将已经计算出的模型应用在测试集中,每个数据点的似然值均被计算出来,并且这些点被分到异常区域、中间区域和正常区域三个区域中,从而找到测试集中的异常值。2.如权利要求1所述的LTE网络中的异常值检测方法,其特征在于:步骤S2中,聚类算法采用基于高斯概率的潜在语义分析模型,即GPLSA算法,已知观测值集合W和时间轴集合D,观测值集合W中的每个点都有时间轴集合D中的一个点与其对应;GPLSA算法对所有的集群k、每个时间的水平对应的值s,近似估计出未知参数mk、∑k和αk,s,mk表示第k个集群所对应的均值,∑k表示第k个集群所对应的协方差矩阵,αk,s表示时间对于水平为s、集群为k时所对应的概率;进而得出每个点最可能的集群和未知参数mk、∑k和αk,s的似然估计。3.如权利要求2所述的LTE网络中的异常值检测方法,其特征在于:GPLSA算法具体为:S21、对所有的k、s,当t=1时,t表示进行迭代的次数,对参数αk,s赋予初值,表示第k个集群的均值初始值,表示第k个集群的初始协方差矩阵,αk,s表示时间对于水平为s、集群为k时所对应的概率;S22、对所有的k、i,当Wi=wi,Di=di时,wi、di分别表示第i个数据点的观测值、时间值,计算观测值Zi的组别为k时即Zi=k的概率和参数其中,i为数据记录数,t表示进行的第t次迭代,表示在第k次迭代中,第i个观测值属于集群k的概率;f表示在第k个集群中,均值为协方差矩阵为进行第t-1次迭代时观测值为wi的概率;表示第k个集群,时间值是di,进行第t-1次迭代的概率;表示第k个集群的第t-1次迭代时均值初始值;表示第k个集群的第t-1次迭代时方差初始值;S23、对于所有的k、s,计算其中,#Es表示集合Es的长度;表示概率值的数学期望;表示第j次迭代,下标为j的所有观测值Es(j)属于集群k的概率;Es(j)表示下标j的集合;S24、对于所有的k、s,更新概率αk,s:其中,表示概率值的数学期望;表示属于集群1时的数学期望;S25、对于所有的k,更新均值其中,wi表示第i个数...
【专利技术属性】
技术研发人员:吴冬华,宇特·亚历克西,石路路,
申请(专利权)人:南京华苏科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。