一种基于大数据的中央空调能耗特征选择方法技术

技术编号:19635692 阅读:22 留言:0更新日期:2018-12-01 16:19
本发明专利技术公开了一种基于大数据的中央空调能耗特征选择方法。预先采集中央空调能耗运行数据,并对该数据进行预处理。根据预处理后的能耗数据特征集,分别使用boruta特征选择算法和lasso回归算法创建各自的能耗特征子集,提取出影响研究目标的重要特征。对于两种不同性质的方法选得到特征子集,结合专家意见,采用交集归类的方法进行特征融合,得到最终的关键特征。本发明专利技术采用特征选择的两个主要方法:lasso回归算法和boruta特征选择算法。算法本质差异明显,避免了单一方法带来的局限性,有效的解决了大数据冗余问题,降低了中央空调能耗数据模型的复杂度。

Energy Consumption Feature Selection Method for Central Air Conditioning Based on Large Data

The invention discloses a method for selecting energy consumption characteristics of central air conditioning based on large data. The energy consumption operation data of central air conditioning are collected in advance and preprocessed. According to the pre-processed energy consumption data feature set, Boruta feature selection algorithm and lasso regression algorithm are used to create their own energy consumption feature subsets, and extract the important features affecting the research objectives. For two different kinds of methods, feature subsets are selected. Combining with expert opinions, feature fusion is carried out by using intersection classification method, and the final key features are obtained. The invention adopts two main methods of feature selection: lasso regression algorithm and boruta feature selection algorithm. The essential difference of the algorithm is obvious, which avoids the limitation of the single method, effectively solves the problem of large data redundancy, and reduces the complexity of the data model of central air conditioning energy consumption.

【技术实现步骤摘要】
一种基于大数据的中央空调能耗特征选择方法
本专利技术涉及中央空调节能研究的
,涉及大数据背景下的数据挖掘方法,具体涉及一种基于大数据的中央空调能耗特征选择方法。
技术介绍
进入21世纪以来,建筑自动化系统(buildingautomationsystem,BAS)为实施建筑系统性能诊断和优化提供了必需的信息技术平台。BAS中存储着庞大的建筑实际运行数据,但这些数据很少得到充分的利用。在中央空调系统运行能耗计量中,积累了大量高维的实时能耗数据,常规方法难以发现和总结这些数据蕴含的知识。数据挖掘作为一项新兴的多学科技术,使高非线性系统建模有了新的曙光,特别是数据挖掘技术在中央空调领域的应用研究也越来越多。在中央空调能耗研究中,其中重要一项是中央空调系统能耗特变量。目前,针对各个中央空调系统的不同,中央空调系统能耗因素也不同,缺乏一套普适的中央空调能耗特征选择方法。
技术实现思路
中央空调系统能耗特征变量研究中,能耗模型涉及多参数问题,包括外部参数和内部参数。建立一套可靠而普适的基于数据挖掘技术的中央空调能耗特征选框架,对运行节能策略意义重大。本专利技术提供一种基于大数据的中央空调能耗特征提取方法,减少大数据的冗余性,在常规能耗内部特征上加入外部特征,实现更精确的能耗特征模型。本专利技术通过下述技术方案实现:一种基于大数据的中央空调能耗特征选择方法,包括以下步骤:步骤一、采用专家意见对特征数据集进行初步筛选;步骤二、对经过初步筛选的特征数据集进行预处理;步骤三、基于预处理后的特征集,采用boruta特征选择算法提取新的特征子集1;步骤四、基于预处理后的特征集,采用lasso特征选择算法提取新的特征子集2;步骤五、基于步骤三得到的特征子集1和步骤四得到的特征子集2,结合专家意见,采用交集归类的方法得到中央空调能耗关键特征集合。优选的,所述步骤二的预处理具体包括以下步骤:步骤2.1,设定约束范围,剔除异常值;步骤2.2,使用决策树得到系统稳定条件下的运行数据;步骤2.3,间隔5分钟取数据均值,去掉重复点;步骤2.4,合并数据,并进行数据扩增;步骤2.5,插值补充缺失数据。优选的,所述步骤三中采用boruta特征选择算法提取新的特征子集1具体包括以下步骤:步骤3.1,通过创建混合副本的阴影特征为给定的数据集增加随机性;步骤3.2,训练一个随机森林分类的扩展数据集,以评估每个特征的重要性,越高则越重要;步骤3.3,检查每一个原特征是否比最好的阴影特征具有更高的重要性,并且不断删除它视为非常不重要的特征;步骤3.4,当所有特征得到确认或拒绝,或算法达到随机森林运行的一个规定的限制时,算法停止。优选的,所述步骤四中采用lasso特征选择算法提取新的特征子集2具体采用模型系数的绝对值函数作为惩罚来压缩模型系数,将部分回归系数变小或设置为0。本专利技术具有如下的优点和有益效果:本专利技术采用采用特征选择的两个主要方法:lasso回归算法和boruta特征选择算法。算法本质差异明显,避免了单一方法带来的局限性,有效的解决了大数据冗余问题,降低了中央空调能耗数据模型的复杂度;且本专利技术不需要太多的专家领域知识,跳出复杂的公式计算以专注数据的角度处理问题,为后期获得更好的节能策略奠定了基础。本专利技术数据挖掘中的boruta特征选择算法是随机森林的一种包装算法,消去数据的冗余程度,lasso回归算法能去除共线性属性和噪声属性,减少对数据分析的干扰和影响。附图说明此处所说明的附图用来提供对本专利技术实施例的进一步理解,构成本申请的一部分,并不构成对本专利技术实施例的限定。在附图中:图1为本专利技术的特征选择方法原理框图。图2为本专利技术的采用boruta算法得到的特征子集重要性排序图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术作进一步的详细说明,本专利技术的示意性实施方式及其说明仅用于解释本专利技术,并不作为对本专利技术的限定。实施例如图1所示,本实施例的一种基于大数据的中央空调能耗特征选择方法,该方法测试均在同一台计算机上完成,具体配置为:Intel(R)Core(TM)i5-7400,8G内存,Windous10操作系统。测试数据采用数据来自广汉市某商场的中央空调系统运行数据,共4032条样本。采集数据点如表一所示。表一:数据采集点步骤1:从上表可以看出,传感器数据点数量多,为了找出具有代表性特征数据进行如下操作。经过一次专家意见初步筛选数据点如表二所示。表二:一次专家意见初步筛选数据点经过二次专家意见初步筛选数据点如下表三所示,使用表三数据点进行能耗特征分析,寻找影响空调负荷率和功率的特征子集。表三:二次专家意见初步筛选数据点步骤2:直接来源现实的数据经常是不完整的、含噪声的和不一致的。预处理具体步骤如下:2.1、设定约束范围,剔除异常值;2.2、使用决策树得到系统稳定条件下的运行数据;2.3、间隔5分钟取数据均值,去掉重复点;2.4、合并数据,并进行数据扩增;2.5、插值补充缺失数据。步骤3,寻找影响空调负荷率和功率的特征子集,boruta特征选择算法的工作原理如下:首先,它通过创建混合副本的所有特征(即阴影特征)为给定的数据集增加了随机性。然后,它训练一个随机森林分类的扩展数据集,并采用一个特征重要性措施(常采用均方残差),以评估的每个特征的重要性,越高则意味着越重要。在每次迭代中,它检查每一个原特征是否比最好的阴影特征具有更高的重要性(即该特征是否比最大的阴影特征得分更高)并且不断删除它视为非常不重要的特征。最后,当所有特征得到确认或拒绝,或算法达到随机森林运行的一个规定的限制时,算法停止。编写程序实现Boruta特征算法步骤如下:3.1、对特征矩阵X的各个特征取值进行shuffle,将shuffle后的特征(shadowfeatures)与原特征(realfeatures)拼接构成新的特征矩阵;3.2、使用新特征矩阵作为输入,训练可以输出feature_importance的模型;3.3、计算realfeature和shadowfeature的Z_score;3.4、在shadowfeatures中找出最大的Z_score记为Z_max;3.5、将Z_socre大于Z_max的realfeature标记为"重要",将Z_score显著小于Z_MAX的realfeature标记为"不重要",并且从特征集合中永久剔除;3.6、重复3.1~3.5,直到所有特征都被标记为"重要"或者"不重要";3.7、得到特征集重要性排序如图2所示。步骤4,应用lasso算法提取新的特征子集。Lasso(Leastabsoluteshrinkageandselectionoperator,Tibshirani(1996))方法是一种压缩估计。此方法用模型系数的绝对值函数作为惩罚来压缩模型系数,使一些回归系数变小,甚至使一些绝对值较小的系数直接变为0。它通过构造一个惩罚罚函数得到一个较为精炼的模型,因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。编写程序实现Lasso主要步骤如下:4.1.将数据集转换为csv格式,逗号分隔;4.2.在R语言中,读取数据,然后将数据转成矩阵形式;4.3.调用lars函数,确定Cp值最小的本文档来自技高网...

【技术保护点】
1.一种基于大数据的中央空调能耗特征选择方法,其特征在于,包括以下步骤:步骤一、采用专家意见对特征数据集进行初步筛选;步骤二、对经过初步筛选的特征数据集进行预处理;步骤三、基于预处理后的特征集,采用boruta特征选择算法提取新的特征子集1;步骤四、基于预处理后的特征集,采用lasso特征选择算法提取新的特征子集2;步骤五、基于步骤三得到的特征子集1和步骤四得到的特征子集2,结合专家意见,采用交集归类的方法得到中央空调能耗关键特征集合。

【技术特征摘要】
1.一种基于大数据的中央空调能耗特征选择方法,其特征在于,包括以下步骤:步骤一、采用专家意见对特征数据集进行初步筛选;步骤二、对经过初步筛选的特征数据集进行预处理;步骤三、基于预处理后的特征集,采用boruta特征选择算法提取新的特征子集1;步骤四、基于预处理后的特征集,采用lasso特征选择算法提取新的特征子集2;步骤五、基于步骤三得到的特征子集1和步骤四得到的特征子集2,结合专家意见,采用交集归类的方法得到中央空调能耗关键特征集合。2.根据权利要求1所述的一种基于大数据的中央空调能耗特征选择方法,其特征在于,所述步骤二的预处理具体包括以下步骤:步骤2.1,设定约束范围,剔除异常值;步骤2.2,使用决策树得到系统稳定条件下的运行数据;步骤2.3,间隔5分钟取数据均值,去掉重复点;步骤2.4,合并数据,并进行数据扩增;步骤2...

【专利技术属性】
技术研发人员:李碧军史翔何彬陈耕
申请(专利权)人:四川泰立智汇科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1