基于K-Means++、BP神经网络和孤立森林的建筑异常能耗检测方法技术

技术编号:36042060 阅读:14 留言:0更新日期:2022-12-21 10:48
本发明专利技术公开了基于K

【技术实现步骤摘要】
基于K

Means++、BP神经网络和孤立森林的建筑异常能耗检测方法


[0001]本专利技术属于应用于建筑能耗监测平台中的能耗异常检测
,具体涉及基于K

Means++、BP神经网络和孤立森林的建筑异常能耗检测方法。

技术介绍

[0002]全世界约有40%的能源被建筑物所消耗,建筑占据了最终能源消费的三分之一,这相当于全球二氧化碳排放总量的30%左右。2018年能源消费报告统计,我国建筑能耗达到2.147亿吨标准煤,建筑运行阶段占建筑全生命周期能耗的46.6%,具有可观的节能潜力。自2007年各城市公共建筑能耗监测平台开始逐步实施,从建筑能耗监测平台收集能耗数据能够有助于发现建筑在运行期间中不合理之处,然而由于数据缺失、设备故障、能源浪费行为和不当的控制策略等因素会造成能耗数据的异常,因此,异常检测是减少建筑运行过程中的能源浪费最常用的解决方案之一。
[0003]目前应用在建筑异常能耗实时检测技术的方法相对较少,现有的建筑能耗领域内异常检测方法,主要可分为有监督检测和无监督检测两种类型。有监督检测方式的异常检测展示了高精度的检测能力,但实用价值却是有限的,这是因为数据的标签可靠性决定了模型的检测准确性,而在现实中获得有标签的能耗数据成本往往是昂贵的。相比于有监督检测,无监督检测不需要带有标签的训练数据,更适用于实际情况中,但是无监督学习方法缺乏足够的先验知识,所以导致检测效果不如有监督学习方法,并且在面对大数据处理时,无监督算法计算效率不高,方法存在着局限性。鉴于此,本文专利技术基于K

Means++、BP神经网络和孤立森林的建筑异常能耗检测方法,降低获取高质量数据的成本,实现对异常能耗数据的准确检测。

技术实现思路

[0004]本专利技术旨在提供一种基于K

Means++、BP神经网络和孤立森林的建筑异常能耗检测方法,以解决在对异常能耗进行异常检测前需要先验知识的局限性,根据聚类结果训练BP神经网络,建立识别匹配机制,以提高大数据检测效率低的问题。
[0005]为了实现以上技术目的,本专利技术采用以下技术方案:
[0006]基于K

Means++、BP神经网络和孤立森林的建筑异常能耗检测方法,包括以下步骤:
[0007]步骤一:通过建筑能耗检测平台收集历史建筑能耗数据;
[0008]步骤二:利用软件导入历史能耗数据样本,通过计算误差平方和指标得到最优聚类数,采用K

means++算法对历史能耗数据聚类分析,赋予类别标签;
[0009]步骤三:根据聚类结果,将含有标签的历史能耗数据对BP神经网络进行训练,构建实时能耗数据识别匹配机制;
[0010]步骤四:不含标签的实时能耗数据根据神经网络识别匹配到对应的类别后,在同
类别中采用孤立森林方法对能耗进行异常检测,判断是否异常;
[0011]步骤五:输出异常检测结果,并根据检测结果对历史能耗数据动态更新。
[0012]进一步地,步骤二中所述软件为Matlab软件。
[0013]进一步地,基于计算误差平方和方法的肘部法则作为确定最优聚类数目的依据,其公式如下:
[0014][0015]其中,k为聚类数目,C
k
表示为聚类结果中第k类能耗数据集;x
ik
为第k聚类中第i个能耗点;μ
k
为第k类能耗数据的质心。
[0016]进一步地,步骤二中所述K

means++聚类算法中对含有n个数据的建筑能耗数据集X={x1,

,x
n
},随机选取第一个聚类中心点μ1,计算数据集X中每一个能耗数据点与已选取的聚类中心点在m维空间中的最小欧几里德距离D,计算每个能耗点被选为下一个聚类中心的概率P,重复以上步骤,按照轮盘法选取k个聚类中心,最小欧几里德距离D和聚类中心的选取概率P定义如下:
[0017][0018][0019]初步选取聚类中心后,计算每个能耗数据x
i
与每个聚类中心的欧几里德距离D,按照最近准则将该能耗数据划分到相应的聚类簇中,在每个聚类中计算所有能耗数据的特征均值,该均值将作为新的聚类中心,重复以上步骤,直到聚类中心位置不再发生变化。
[0020]进一步地,步骤三中通过对历史能耗数据聚类分析后,将具有相似特征的能耗数据赋予了相同的能耗模式类别标签。
[0021]进一步地,步骤四中不含标签的实时能耗数据根据神经网络识别,匹配到对应类别中,在同类别内对能耗数据采用孤立森林方法对能耗进行异常检测,判断是否异常,根据检测结果对历史能耗数据实现动态更新,保证数据集的时效性。
[0022]进一步地,所述孤立森林方法是通过从能耗数据集中随机挑选m个能耗数据作为子样本数据集T={t1,t2…
,t
m
},将其作为一颗孤立树的根节点,在子样本数据集中,随机产生一个介于子样本数据最大值与最小值间的分割值p,通过分割值p对子样本数集进行划分,不断构建左侧分支和右侧分支,重复上述过程,直至达到下列条件之一停止:

孤立树达到高度限制值;

子样本空间中只剩下一个能耗数据。
[0023]进一步地,对于任意一个能耗数据,通过查询孤立森林所有孤立树,计算其在每一棵树中的路径长度h(x),路径长度是指样本能耗从根节点到外节点所经过的二叉树的边数,根据下列公式,计算该能耗的异常得分s(x,m),从而判断该点是否为离群点;
[0024][0025][0026]H(m)=ln(m)+ξ
[0027]其中,E(h(x))为在孤立森林中路径长度的期望值;H(m)为调和函数,ξ为欧拉常数;c(m)为搜索路径长度平均值。
[0028]进一步地,所述s(x,m)的取值范围为[0,1]。
[0029]本专利技术具有以下优点:
[0030]1.与现有技术相比,本专利技术采用了K

means++聚类算法通过计算误差平方和指标确定最佳聚类数,有效地解决了分析历史能耗数据需要先验知识的前提条件,降低了获取含标签数据的成本。
[0031]2.与现有技术相比,本专利技术根据孤立森林检测算法计算的异常分数,设定阈值,输出异常检测。在保证能耗数据样本容量的情况下,通过剔除时间特征最早的能耗数据,实现对能耗数据集的动态更新,正常能耗将会添加到历史能耗数据集中,重新构建识别匹配机制,避免由于节假日或气候的变化导致能耗数据更新不及时,造成误判。
[0032]3.本专利技术每次新记录的待检测能耗数据无需对所有能耗数据重新聚类,在本专利技术方法步骤三中,将聚类分析后带有能耗模式类别标签的能耗结果对BP神经网络进行训练,建立与聚类算法相适用的实时能耗数据识别匹配模型,能够有效地提高检测效率的同时提高检测准确度。
[0033]4.本专利技术针对建筑能耗监测平台在记录能耗数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于K

Means++、BP神经网络和孤立森林的建筑异常能耗检测方法,其特征在于,包括以下步骤:步骤一:通过建筑能耗检测平台收集历史建筑能耗数据;步骤二:利用软件导入历史能耗数据样本,通过计算误差平方和指标得到最优聚类数,采用K

means++算法对历史能耗数据聚类分析,赋予类别标签;步骤三:根据聚类结果,将含有标签的历史能耗数据对BP神经网络进行训练,构建实时能耗数据识别匹配机制;步骤四:不含标签的实时能耗数据根据神经网络识别匹配到对应的类别后,在同类别中采用孤立森林方法对能耗进行异常检测,判断是否异常;步骤五:输出异常检测结果,并根据检测结果对历史能耗数据动态更新。2.根据权利要求1所述的基于K

Means++、BP神经网络和孤立森林的建筑异常能耗检测方法,其特征在于,步骤二中所述软件为Matlab软件。3.根据权利要求1所述的基于K

Means++、BP神经网络和孤立森林的建筑异常能耗检测方法,其特征在于,基于计算误差平方和方法的肘部法则作为确定最优聚类数目的依据,其公式如下:其中,k为聚类数目,C
k
表示为聚类结果中第k类能耗数据集;x
ik
为第k聚类中第i个能耗点;μ
k
为第k类能耗数据的质心。4.根据权利要求1所述的基于K

Means++、BP神经网络和孤立森林的建筑异常能耗检测方法,其特征在于,步骤二中所述K

means++聚类算法中对含有n个数据的建筑能耗数据集X={x1,

,x
n
},随机选取第一个聚类中心点μ1,计算数据集X中每一个能耗数据点与已选取的聚类中心点在m维空间中的最小欧几里德距离D,计算每个能耗点被选为下一个聚类中心的概率P,重复以上步骤,按照轮盘法选取k个聚类中心,最小欧几里德距离D和聚类中心的选取概率P定义如下:选取概率P定义如下:初步选取聚类中心后,计算每个能耗数据x
i
与每个聚类中心的欧几里德距离D,按照最近准则将该能耗数据划分到相应的聚类簇中,在每个聚类中计算所有能耗数据...

【专利技术属性】
技术研发人员:雷蕾郭雪松
申请(专利权)人:浙江理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1