一种基于混合隐朴素贝叶斯模型的异常检测方法技术

技术编号:24889834 阅读:15 留言:0更新日期:2020-07-14 18:16
本发明专利技术公开了一种基于混合隐朴素贝叶斯模型的异常检测方法,属于故障诊断领域。本发明专利技术通过对连续变量和二值变量的选择,考虑连续变量与连续变量、二值变量与二值变量、二值变量与连续变量之间的相关性,构建同时包含连续变量和二值变量信息的混合隐朴素贝叶斯模型。本发明专利技术与传统方法相比,因加入二值变量的信息,对过程工业中异常的检测具有更高的性能,可以显著的减少故障误报率并有效的提高故障检测率。

【技术实现步骤摘要】
一种基于混合隐朴素贝叶斯模型的异常检测方法
本专利技术属于故障诊断领域,具体涉及一种基于混合隐朴素贝叶斯模型的异常检测方法。
技术介绍
随着大数据时代的到来,呈指数增长的大量工业数据为故障检测带来了新的巨大挑战。挑战之一就是如何高效的利用不同类型的数据进行故障检测。工业过程中存在大量的表示状态或者数值范围的变量,其通常储存为0和1两种数值的形式,我们称这一类变量为二值变量(或者开关变量)。传统的故障检测方法基本都是基于连续变量进行的,而二值变量在数据预处理阶段就被清除掉。显然,二值变量也包含一定的工业过程信息,在数据预处理阶段直接被删除必然会导致部分信息的丢失。
技术实现思路
针对工业过程中现有技术基本只能处理连续变量的现状,本专利技术提出了一种基于混合隐朴素贝叶斯模型的异常检测方法,该方法同时利用连续变量和二值变量来进行异常检测分析,因其克服了现有技术的不足,具有良好的效果。为了实现上述目的,本专利技术采用如下技术方案:一种基于混合隐朴素贝叶斯模型的异常检测方法,包括如下步骤:步骤1:变量选择,具体包括如下步骤:步骤1.1:对于n次采样的历史数据集其中i表示采样时间,X为历史数据,y为对应的标签,xi为X第i时刻的值,yi为y第i时刻的值,yi∈{1,2,…,K},K为X的总类别数,xi包含p维特征,表示维度,将x根据连续变量和二值变量的特征划分为xc和xb;x为xi的实际取值,连续变量集xc包含p1个特征,二值变量集xb包含p2个特征;步骤1.2:当xj∈xc时假设其中,xj为xc的第j个特征,k为i时刻采样数据xi所对应的工况类别标签,Pc(xj|yi=k)为连续变量的条件概率密度函数,μkj为第j个变量在k标签下的均值,σkj为第j个变量在k标签下的标准差;当xj∈xb时假设其中,xj为xb的第j个特征,Pb(xj|yi=k)为二值变量的条件概率,θkj为第j个变量在k标签下的响应函数;步骤1.3:通过公式(3)和(4)对连续变量参数进行估计:其中,πik=1{yi=k},xij为xi的第j个分量;为标签k下第j个变量的均值的估计值,xij为i时刻第j个变量的值,为标签k下第j个变量的标准差的估计值;步骤1.4:通过公式(5)和(6)对二值变量的先验概率和响应概率进行估计:步骤1.5:假设对1≤k≤c-1按公式(7)进行处理:其中,πik=1{yi=k},c为标签值,为先验概率的双截断估计,n为采样总数;当k=c时,同理假设对1≤k≤c-1按公式(9)进行处理:θcj为标签c下第j个变量的响应函数,为θcj的双截断估计值;当k=c时,其中,ξ为大于零的小正数;步骤1.6:根据公式(11),计算每一个二值变量的响应概率步骤1.7:根据公式(12),计算每一个二值变量的指标值步骤1.8:根据公式(13),计算每一个连续变量的不同两工况之间的KL散度DKL:步骤1.9:根据和DKL的大小,按降序对连续变量和二值变量分别进行排序,分别取前d个变量进行后续离线建模和在线检测;步骤2:离线建模,具体包括如下步骤:步骤2.1:当xj,xj′∈xb,根据公式(14),计算条件互信息:其中,P(y)为先验概率,P(xj,xj′|y),P(xj,xj′|y),P(xj|y),P(xj′|y)为条件概率;CMI(xj,xj′|y)为已知y的情况下xj和xj′的条件互信息;步骤2.2:当xj,xj′∈xc,根据公式(15),计算条件互信息:其中,P(y)为先验概率,P(xj,xj′|y),P(xj,xj′|y),P(xj|y),P(xj′|y)为条件概率密度函数;CMI(xj,xj′|y)为已知y的情况下xj和xj′的条件互信息;步骤2.3:当xj∈xb,xj′∈xc,根据公式(16),计算条件互信息:其中,P(y)为先验概率,P(xj,xj′|y),P(xj,xj′|y),P(xj|y),P(xj′|y)为条件概率密度函数;步骤2.4:根据公式(17),计算权值系数wj′j,并对权值系数进行归一化处理;步骤2.5:根据历史数据计算条件概率P(xj|xj′,yi=k);步骤2.6:根据公式(18),计算考虑了变量之间相关性的条件概率P′(xj|yi=k):步骤3:在线故障检测,具体包括如下步骤:步骤3.1:根据公式(19),计算采样数据隶属于各个标签的概率:步骤3.2:取各个标签概率中概率最大的标签作为采样数据的预测标签;若:预测标签与正常数据标签相同,则认定为正常,预测标签与故障数据标签一致,否则认为发生故障。本专利技术所带来的有益技术效果:本专利技术提出一种称为基于混合隐朴素贝叶斯模型的异常检测方法,通过对连续变量和二值变量的选择,考虑连续变量与连续变量、二值变量与二值变量、二值变量与连续变量之间的相关性,构建同时包含连续变量和二值变量信息的混合隐朴素贝叶斯模型。本专利技术与传统方法相比,因加入二值变量的信息,对过程工业中异常的检测具有更高的性能,可以显著的减少故障误报率并有效的提高故障检测率。附图说明图1为仿真研究结果图;其中,图(a)为仿真原始数据图;图(b)为仅应用连续变量时测试数据的标签指示图,图(c)为仅应用二值变量时测试数据的标签指示图;图(d)为应用连续变量和二值变量时测试数据的标签指示图。图2为本专利技术基于混合隐朴素贝叶斯模型的异常检测方法的流程图。具体实施方式下面结合附图以及具体实施方式对本专利技术作进一步详细说明:一种基于混合隐朴素贝叶斯模型的异常检测方法,其流程如图2所示,包括如下步骤:步骤1:变量选择,具体包括如下步骤:步骤1.1:对于n次采样的历史数据集其中i表示采样时间,X为历史数据,y为对应的标签,xi为X第i时刻的值,yi为y第i时刻的值,yi∈{1,2,…,K},K为X的总类别数,xi包含p维特征,表示维度,将x根据连续变量和二值变量的特征划分为xc和xb;x为xi的实际取值,连续变量集xc包含p1个特征,二值变量集xb包含p2个特征;步骤1.2:当xj∈xc时假设其中,xj为xc的第j个特征,k为i时刻采样数据xi所对应的工况类别标签,Pc(xj|yi=k)为连续变量的条件概率密度函数,μkj为第j个变量在k标签下的均值,σkj为第j个变量在k标签下的标准差;当xj∈xb时假设其中,xj为xb的第j个特征,Pb(xj|yi=k)为二值变量的条件概率,θkj为第j个变量在k标签下的响应函数;步骤1.3:通过公式(3)和(4)本文档来自技高网...

【技术保护点】
1.一种基于混合隐朴素贝叶斯模型的异常检测方法,其特征在于:包括如下步骤:/n步骤1:变量选择,具体包括如下步骤:/n步骤1.1:对于n次采样的历史数据集

【技术特征摘要】
1.一种基于混合隐朴素贝叶斯模型的异常检测方法,其特征在于:包括如下步骤:
步骤1:变量选择,具体包括如下步骤:
步骤1.1:对于n次采样的历史数据集其中i表示采样时间,X为历史数据,y为对应的标签,xi为X第i时刻的值,yi为y第i时刻的值,yi∈{1,2,...,K},K为X的总类别数,xi包含p维特征,表示维度,将x根据连续变量和二值变量的特征划分为xc和xb;x为xi的实际取值,连续变量集xc包含p1个特征,二值变量集xb包含p2个特征;
步骤1.2:当xj∈xc时假设



其中,xj为xc的第j个特征,k为i时刻采样数据xi所对应的工况类别标签,Pc(xj|yi=k)为连续变量的条件概率密度函数,μkj为第j个变量在k标签下的均值,σkj为第j个变量在k标签下的标准差;
当xj∈xb时假设



其中,xj为xb的第j个特征,Pb(xj|yi=k)为二值变量的条件概率,θkj为第j个变量在k标签下的响应函数;
步骤1.3:通过公式(3)和(4)对连续变量参数进行估计:






其中,πik=1{yi=k},xij为xi的第j个分量;为标签k下第j个变量的均值的估计值,xij为i时刻第j个变量的值,为标签k下第j个变量的标准差的估计值;
步骤1.4:通过公式(5)和(6)对二值变量的先验概率和响应概率进行估计:






步骤1.5:假设对1≤k≤c-1按公式(7)进行处理:



其中,πik=1{yi=k},c为标签值,为先验概率的双截断估计,n为采样总数;当k=c时,



同理假设对1≤k≤c-1按公式(9)进行处理:



θcj为标签c下第j个变量的响应函数,为θcj的双截断估计值;
当k=c时,



其中,ξ为大于零的小正数;
步骤1.6:根据公式(11),计算每一个二值变量的响应概率


<...

【专利技术属性】
技术研发人员:周东华陈茂银王敏徐晓滨纪洪泉高明
申请(专利权)人:山东科技大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1