【技术实现步骤摘要】
一种基于遗传模糊聚类的系统数据异常检测方法
本专利技术涉及一种基于遗传模糊聚类的系统数据异常检测方法,属于数据异常检测
技术介绍
随着信息技术的高速发展,基于服务的系统平台数据往往在传输过程中可能由于各种各样的原因而造成数据异常。FCM模糊聚类算法常常被应用于数据异常检测领域,然而传统的FCM模糊聚类算法容易陷入局部最优点的问题。为了解决此问题,本专利技术采用FCM模糊聚类算法与遗传算法结合的异常检测方法应用于系统平台数据异常检测领域,可以解决FCM算法易陷入局部最优点的问题。异常数据集往往是混合属性的特点,在处理这些具有混合属性特点的异常数据集过程中,计算量非常大,本专利技术针对这一特点,改进了距离测度的计算方法,将计算量大大减少。
技术实现思路
本专利技术要解决的技术问题是提供一种基于遗传模糊聚类的系统数据异常检测方法,首先考虑到系统平台提供的数据集往往是具有混合属性的特点,改进了距离测度的计算,并结合遗传算法解决了模糊聚类算法易于陷入局部最优点的问题。本专利技术的技术方案是:一种基于遗传模糊聚类的系统数据异常检测方法,具体步骤为:Step1:首先,对系统提供的数据集中所有数据进行标准化处理,然后对标准化处理后的所有数据分别进行随机化处理,再然后将随机化处理后的数据进行划分,最后得到训练样本集TR和测试样本集TE。Step2:确定训练样本集TR的最大分类数Cmax与最小分类数Cmin,组成一个关于最大分类数Cmax与最小分类数Cmin的集合c={Cmin,Cm ...
【技术保护点】
1.一种基于遗传模糊聚类的系统数据异常检测方法,其特征在于:/nStep1:首先,对系统提供的数据集中所有数据进行标准化处理,然后对标准化处理后的所有数据分别进行随机化处理,再然后将随机化处理后的数据进行划分,最后得到训练样本集TR和测试样本集TE;/nStep2:确定训练样本集TR的最大分类数C
【技术特征摘要】
1.一种基于遗传模糊聚类的系统数据异常检测方法,其特征在于:
Step1:首先,对系统提供的数据集中所有数据进行标准化处理,然后对标准化处理后的所有数据分别进行随机化处理,再然后将随机化处理后的数据进行划分,最后得到训练样本集TR和测试样本集TE;
Step2:确定训练样本集TR的最大分类数Cmax与最小分类数Cmin,组成一个关于最大分类数Cmax与最小分类数Cmin的集合c={Cmin,Cmin+1,...,Cmax},构建混合属性数据集的模糊聚类模型和遗传算法模型,将最大分类数Cmax与最小分类数Cmin的集合c传递给这些模型,得到一个关于目标函数值的集合OFV,集合中OFV的每一个值都对应一个聚类数目,将这些聚类数目组成一个集合,设为CN;
Step3:通过Step2获得的集合OFV和集合CN,结合集合OFV中最小元素集合和方差分析,来分析得到最佳分类数目C*;
Step4:将Step3中获得的最佳分类数目C*,生成相对应的聚类结果记为C,而Ci,i=1,2,...,C*,其中Ci表示第i类聚类结果集合,以及相对应的聚类中心PCC,而PCCi,i=1,2,...,C*,其中PCCi表示第i类中心;
Step5:将Step4获得的聚类结果C进行标类,从而在结果中区分出状态正常的聚类和异常的聚类;
区分原则为:
设定一个比例系数η,0<η<1,如果则认为是正常聚类结果类,否则为异常聚类结果类;
其中,Count(Ci)表示聚类结果C中第i类聚类结果集合的数量,Count(TR)表示训练样本集的数量;
最终得到的正常聚类结果类记为NCRC,而NCRCi,i=1,2,...,iN表示正常聚类结果中的第i类,相对应的正常聚类结果类聚类中心记为PNCRC,而PNCRCi,i=1,2,...,iN,表示正常聚类结果中的第i类中心;
异常聚类结果类记为ACRC,而ACRCj,j=1,2,...,jN表示异常聚类结果中的第j类,异常聚类结果类聚类中心PACRC,而PACRCj,j=1,2,...,jN表示异常聚类结果中的第j类中心,且iN+jN=C*;
Step6:从Step6中获得了正常聚类结果类NCRC和异常聚类结果类记为ACRC,以及相对应的正常聚类结果类聚类中心PNCRC和异常聚类结果类聚类中心PACRC,从而进行数据集的异常检测;
对于按Step1预处理后的测试样本集TE={x1,x2,…,xn},假设xi为待检测数据,分别计算xi与Step5中获得的PNCRC和PACRC的距离测度,设与待检测数据xi具有最小距离测度的聚类中心相对应的子类即为其所属聚类;
当待检测数据xi所属聚类子类属于Step5中获得的正常聚类结果类NCRC,则为正常数据;
当待检测数据xi所属聚类子类属于Step5获得的异常聚类结果类ACRC,则为异常数据。
2.根据权利要求1所述的基于遗传模糊聚类的系统数据异常检测方法,其特征在于所述Step1的具体步骤为:
使用离散标准化,将系统提供的所有数据集中的所有数据X={x1,x2,…,xn}映射到[0,1]之间,0<i<n,对每个数据xi用下式进行标准化处理:
其中,min{X}是系统提供的数据集中最小值,max{X}是系统提供的数据集中最大值,xi'为对每个数据xi标准化后的数据值,然后再对标准化处理后的数据值进行随机化处理,最后将这些数划分成训练样本集TR和测试样本集TE。
3.根据权利要求1所述的基于遗传模糊聚类的系统数据异常检测方法,其特征在于所述Step2的具体步骤为:
通过Step1预处理后的数据集TR={x1,x2,…,xi,…,xn}是一组具有混合属性的的数据集,1≤j≤n,其中,xj=[xj1,…,xjl,...,xjm]T表示数据集TR的第j个样本的混合属性,xjl表示样本xj的第l个属性,m为xj包含属性特征的维数;具有混合属性的样本xi和xj相异性测度可表示如下:
其中,xi,xj为TR数据集中第i个和第j个样本,dij表示TR数据集中第i个到第j个样本的闵科夫斯基距离;
Step2.1:计算隶属度,隶属度函数如下:
其中,uij是样本,xj属于第i类的隶属度矩阵,h为模糊系数;i和j的取值范围为[1,n],n为训练样本集TR的数量,获得一个隶属度集合...
【专利技术属性】
技术研发人员:田园,原野,马文,黄祖源,付谱平,
申请(专利权)人:云南电网有限责任公司信息中心,
类型:发明
国别省市:云南;53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。