一种基于遗传模糊聚类的系统数据异常检测方法技术方案

技术编号:25638287 阅读:20 留言:0更新日期:2020-09-15 21:30
本发明专利技术涉及一种基于遗传模糊聚类的系统数据异常检测方法,属于数据异常检测技术领域。本发明专利技术首先对系统平台采集到的数据集进行离散标准化处理,将离散标准化处理后的数据集随机化并划分成训练样本集和测试样本集。对测试样本集进行模糊聚类处理,对模糊处理后的得到的聚类中心进行遗传运算。然后得到一个最佳分类数目和对应的聚类结果集。然后对聚类结果集进行标类,获得正常数据集的各个聚类中心和异常数据集的各个聚类中心。再然后计算测试样本集中的每个样本与标类后的各个数据集聚类中心的距离,可以认为与测试样本集中的每个样本具有最小距离测度的子类即为其所属聚类,从而可以测试出测试样本集中的异常数据。

【技术实现步骤摘要】
一种基于遗传模糊聚类的系统数据异常检测方法
本专利技术涉及一种基于遗传模糊聚类的系统数据异常检测方法,属于数据异常检测

技术介绍
随着信息技术的高速发展,基于服务的系统平台数据往往在传输过程中可能由于各种各样的原因而造成数据异常。FCM模糊聚类算法常常被应用于数据异常检测领域,然而传统的FCM模糊聚类算法容易陷入局部最优点的问题。为了解决此问题,本专利技术采用FCM模糊聚类算法与遗传算法结合的异常检测方法应用于系统平台数据异常检测领域,可以解决FCM算法易陷入局部最优点的问题。异常数据集往往是混合属性的特点,在处理这些具有混合属性特点的异常数据集过程中,计算量非常大,本专利技术针对这一特点,改进了距离测度的计算方法,将计算量大大减少。
技术实现思路
本专利技术要解决的技术问题是提供一种基于遗传模糊聚类的系统数据异常检测方法,首先考虑到系统平台提供的数据集往往是具有混合属性的特点,改进了距离测度的计算,并结合遗传算法解决了模糊聚类算法易于陷入局部最优点的问题。本专利技术的技术方案是:一种基于遗传模糊聚类的系统数据异常检测方法,具体步骤为:Step1:首先,对系统提供的数据集中所有数据进行标准化处理,然后对标准化处理后的所有数据分别进行随机化处理,再然后将随机化处理后的数据进行划分,最后得到训练样本集TR和测试样本集TE。Step2:确定训练样本集TR的最大分类数Cmax与最小分类数Cmin,组成一个关于最大分类数Cmax与最小分类数Cmin的集合c={Cmin,Cmin+1,...,Cmax},构建混合属性数据集的模糊聚类模型和遗传算法模型,将最大分类数Cmax与最小分类数Cmin的集合c传递给这些模型,得到一个关于目标函数值的集合OFV,集合中OFV的每一个值都对应一个聚类数目,将这些聚类数目组成一个集合,设为CN。Step3:通过Step2获得的集合OFV和集合CN,结合集合OFV中最小元素集合和方差分析,来分析得到最佳分类数目C*。Step4:将Step3中获得的最佳分类数目C*,生成相对应的聚类结果记为C,而Ci,i=1,2,...,C*,其中Ci表示第i类聚类结果集合,以及相对应的聚类中心PCC,而PCCi,i=1,2,...,C*,其中PCCi表示第i类中心。Step5:将Step4获得的聚类结果C进行标类,标类的目的是在结果中区分出状态正常的聚类和异常的聚类;区分原则为:设定一个比例系数η,0<η<1,如果则认为是正常聚类结果类,否则为异常聚类结果类。其中,Count(Ci)表示聚类结果C中第i类聚类结果集合的数量,Count(TR)表示训练样本集的数量。最终得到的正常聚类结果类记为NCRC,而NCRCi,i=1,2,...,iN表示正常聚类结果中的第i类,相对应的正常聚类结果类聚类中心记为PNCRC,而PNCRCi,i=1,2,...,iN,表示正常聚类结果中的第i类中心。异常聚类结果类记为ACRC,而ACRCj,j=1,2,...,jN表示异常聚类结果中的第j类,异常聚类结果类聚类中心PACRC,而PACRCj,j=1,2,...,jN表示异常聚类结果中的第j类中心,且iN+jN=C*。Step6:从Step6中获得了正常聚类结果类NCRC和异常聚类结果类记为ACRC,以及相对应的正常聚类结果类聚类中心PNCRC和异常聚类结果类聚类中心PACRC,从而进行数据集的异常检测。对于按Step1预处理后的测试样本集TE={x1,x2,…,xn},假设xi为待检测数据,分别计算xi与Step5中获得的PNCRC和PACRC的距离测度,设与待检测数据xi具有最小距离测度的聚类中心相对应的子类即为其所属聚类。当待检测数据xi所属聚类子类属于Step5中获得的正常聚类结果类NCRC,则为正常数据。当待检测数据xi所属聚类子类属于Step5获得的异常聚类结果类ACRC,则为异常数据。所述Step1的具体步骤为:使用离散标准化,将系统提供的所有数据集中的所有数据X={x1,x2,…,xn}映射到[0,1]之间,对每个数据xi用下式进行标准化处理:其中,min{X}是系统提供的数据集中最小值,max{X}是系统提供的数据集中最大值,xi'为对每个数据xi标准化后的数据值,然后再对标准化处理后的数据值进行随机化处理,最后将这些数划分成训练样本集TR和测试样本集TE。所述Step2的具体步骤为:通过Step1预处理后的数据集TR={x1,x2,…,xi,…,xn}是一组具有混合属性的的数据集,其中,xj=[xj1,…,xjl,...,xjm]T表示数据集TR的第j个样本的混合属性,xjl表示样本xj的第l个属性,m为xj包含属性特征的维数;具有混合属性的样本xi和xj相异性测度可表示如下:其中,xi,xj为TR数据集中第i个和第j个样本,dij表示TR数据集中第i个到第j个样本的闵科夫斯基距离,从Step2中初始化获得的最大分类数Cmax与最小分类数Cmin的集合c,需要不断的将集合c中的每个元素传递给隶属度计算函数,以此来探索哪个分类数目最佳。Step2.1:计算隶属度,隶属度函数如下:其中,uij是样本,xj属于第i类的隶属度矩阵,h为模糊系数;i和j的取值范围为[1,n],n为训练样本集TR的数量,最终可以获得一个隶属度集合u,c(k)表示集合c中的第k个元素。Step2.2:通过Step2.1获得的隶属度uij,可以得到它的聚类中心,聚类中心为:其中,Pi为第i类的聚类中心,i的范围为[1,n],n为训练样本集TR的数量,最终可以获得一个聚类中心集合P。Step2.3:混通过Step2.1和Step2.2分别获得的隶属度uij和聚类中心Pi,混合属性数据集的目标函数为:其中,Jh为目标函数值,i的取值范围为[1,n],n为训练样本集TR的数量,最终可以获得一个目标函数集合J。Step2.4:通过目标函数值Jh,建立适应度函数,适应度函数如下:其中,Fi为适应度函数返回的值,i的取值范围为[1,n],n为训练样本集TR的数量,最终可以获得一个适应度函数值集合F,ε为足够小的正数,范围在(e-10,e-20)之间。Step2.5:通过Step2.4获得的适应度函数值Fi,确定选择算子公式如下:其中,PSEi为选择算子,i和k的取值范围为[1,n],n为训练样本集TR的数量,最终可以获得一个选择算子集合PSE。Step2.6:对从Step2.2获得的聚类中心P按照多参数二进制编码方式进行编码。Step2.7:初始化交叉算子Pc、变异算子Pm以及种群数量PQ和一个最大遗传代数MGA,对由Step2.6获得的已经编码的聚类中心P进行遗传运算,然后将进行过遗传运算的聚类中心P重新代入到Step2.3中,然后在重新计算St本文档来自技高网...

【技术保护点】
1.一种基于遗传模糊聚类的系统数据异常检测方法,其特征在于:/nStep1:首先,对系统提供的数据集中所有数据进行标准化处理,然后对标准化处理后的所有数据分别进行随机化处理,再然后将随机化处理后的数据进行划分,最后得到训练样本集TR和测试样本集TE;/nStep2:确定训练样本集TR的最大分类数C

【技术特征摘要】
1.一种基于遗传模糊聚类的系统数据异常检测方法,其特征在于:
Step1:首先,对系统提供的数据集中所有数据进行标准化处理,然后对标准化处理后的所有数据分别进行随机化处理,再然后将随机化处理后的数据进行划分,最后得到训练样本集TR和测试样本集TE;
Step2:确定训练样本集TR的最大分类数Cmax与最小分类数Cmin,组成一个关于最大分类数Cmax与最小分类数Cmin的集合c={Cmin,Cmin+1,...,Cmax},构建混合属性数据集的模糊聚类模型和遗传算法模型,将最大分类数Cmax与最小分类数Cmin的集合c传递给这些模型,得到一个关于目标函数值的集合OFV,集合中OFV的每一个值都对应一个聚类数目,将这些聚类数目组成一个集合,设为CN;
Step3:通过Step2获得的集合OFV和集合CN,结合集合OFV中最小元素集合和方差分析,来分析得到最佳分类数目C*;
Step4:将Step3中获得的最佳分类数目C*,生成相对应的聚类结果记为C,而Ci,i=1,2,...,C*,其中Ci表示第i类聚类结果集合,以及相对应的聚类中心PCC,而PCCi,i=1,2,...,C*,其中PCCi表示第i类中心;
Step5:将Step4获得的聚类结果C进行标类,从而在结果中区分出状态正常的聚类和异常的聚类;
区分原则为:
设定一个比例系数η,0<η<1,如果则认为是正常聚类结果类,否则为异常聚类结果类;
其中,Count(Ci)表示聚类结果C中第i类聚类结果集合的数量,Count(TR)表示训练样本集的数量;
最终得到的正常聚类结果类记为NCRC,而NCRCi,i=1,2,...,iN表示正常聚类结果中的第i类,相对应的正常聚类结果类聚类中心记为PNCRC,而PNCRCi,i=1,2,...,iN,表示正常聚类结果中的第i类中心;
异常聚类结果类记为ACRC,而ACRCj,j=1,2,...,jN表示异常聚类结果中的第j类,异常聚类结果类聚类中心PACRC,而PACRCj,j=1,2,...,jN表示异常聚类结果中的第j类中心,且iN+jN=C*;
Step6:从Step6中获得了正常聚类结果类NCRC和异常聚类结果类记为ACRC,以及相对应的正常聚类结果类聚类中心PNCRC和异常聚类结果类聚类中心PACRC,从而进行数据集的异常检测;
对于按Step1预处理后的测试样本集TE={x1,x2,…,xn},假设xi为待检测数据,分别计算xi与Step5中获得的PNCRC和PACRC的距离测度,设与待检测数据xi具有最小距离测度的聚类中心相对应的子类即为其所属聚类;
当待检测数据xi所属聚类子类属于Step5中获得的正常聚类结果类NCRC,则为正常数据;
当待检测数据xi所属聚类子类属于Step5获得的异常聚类结果类ACRC,则为异常数据。


2.根据权利要求1所述的基于遗传模糊聚类的系统数据异常检测方法,其特征在于所述Step1的具体步骤为:
使用离散标准化,将系统提供的所有数据集中的所有数据X={x1,x2,…,xn}映射到[0,1]之间,0<i<n,对每个数据xi用下式进行标准化处理:



其中,min{X}是系统提供的数据集中最小值,max{X}是系统提供的数据集中最大值,xi'为对每个数据xi标准化后的数据值,然后再对标准化处理后的数据值进行随机化处理,最后将这些数划分成训练样本集TR和测试样本集TE。


3.根据权利要求1所述的基于遗传模糊聚类的系统数据异常检测方法,其特征在于所述Step2的具体步骤为:
通过Step1预处理后的数据集TR={x1,x2,…,xi,…,xn}是一组具有混合属性的的数据集,1≤j≤n,其中,xj=[xj1,…,xjl,...,xjm]T表示数据集TR的第j个样本的混合属性,xjl表示样本xj的第l个属性,m为xj包含属性特征的维数;具有混合属性的样本xi和xj相异性测度可表示如下:






其中,xi,xj为TR数据集中第i个和第j个样本,dij表示TR数据集中第i个到第j个样本的闵科夫斯基距离;
Step2.1:计算隶属度,隶属度函数如下:



其中,uij是样本,xj属于第i类的隶属度矩阵,h为模糊系数;i和j的取值范围为[1,n],n为训练样本集TR的数量,获得一个隶属度集合...

【专利技术属性】
技术研发人员:田园原野马文黄祖源付谱平
申请(专利权)人:云南电网有限责任公司信息中心
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1