结合k-means和随机森林的变压器油温预测方法技术

技术编号:24171454 阅读:36 留言:0更新日期:2020-05-16 03:05
本发明专利技术提出了一种结合k‑means和随机森林的变压器油温预测方法,该方法应用k‑means聚类算法对原始训练集划分成k个簇,再针对每个簇构建随机森林,这样可以减少用于构建随机森林的训练样本,从而减少了每个特征的取值划分,从而减少了计算量,使算法效率有所提升。

【技术实现步骤摘要】
结合k-means和随机森林的变压器油温预测方法
本专利技术涉及数据挖掘
,更具体地,涉及一种结合k-means和随机森林的变压器油温预测方法。
技术介绍
电力变压器作为电力系统中的关键设备,其稳定运行对于电力系统的可靠性和运行的经济性有着重要影响。从某种程度而言,变压器的载荷能力和绝缘老化速度主要由其内部热状态决定。油浸式变压器在运行中产生的损耗,包括空载损耗,以热的形式通过油、油箱壁和散热器散发到周围的空气中。因此变压器油温是变压器热状态的重要参数,在保证变压器安全运行的前提下,为充分利用变压器动态载荷能力,准确预测变压器油温十分关键。变压器运行时,绕组和铁芯由于电能损耗产生的热量使油的温度升高,体积膨胀,密度减小,油自然向上流动,上层热油流经散热管、邮箱壁冷却后,因密度增大而下降,于是形成了油在油箱和散热管间的自然循环流动。随机森林算法是一种集成学习算法,它综合考量多个学习器的预测结果,从而做出决策。由于采用了集成算法,本身精度比大多数单个算法要好,所以准确性高。由于树的组合,使得随机森林可以处理非线性数据,因此随机森林属于非线性分类(拟合)模型。但是取值划分比较多的特征容易对随机森林的决策产生更大的影响,从而影响拟合的模型的效果,且计算效率比较低。
技术实现思路
本专利技术提供一种结合k-means和随机森林的变压器油温预测方法,该方法减少了计算量,使算法效率有所提升。为了达到上述技术效果,本专利技术的技术方案如下:一种结合k-means和随机森林的变压器油温预测方法,包括以下步骤:S1:获取变压器的历史数据作为原始训练集;S2:对原始训练集应用k-means聚类算法聚类,保存聚类结果,将原始训练集划分k个簇;S3:对每个簇训练集生成的多颗回归树组成对应簇训练集的随机森林;S4:对于待预测的输入样本,计算其到原始训练集中每个簇的簇中心的距离,选择其距离最近的那个簇对应的随机森林,将输入样本输入到该随机森林中n_tree颗回归树中得到n_tree个预测值进行处理得到最终预测值。进一步地,变压器的数据包括:负载率、环境温度、湿度、风速、油温。进一步地,所述的变压器负载率、环境温度、湿度、风速为输入特征变量,油温为输出变量。进一步地,所述步骤S3中对于单个簇训练集训练具体步骤如下:1)、从单个簇训练集中取出m个样本;2)、生成n_tree个训练集,对n_tree个训练集,分别训练n_tree个cart回归决策树模型。进一步地,从单个簇训练集中进行n_tree次采样。进一步地,从单个簇训练集中使用bootstraping方法随机有放回采样取出m个样本。进一步地,单个回归决策树的建方法如下:1)、采用均方误差作为节点分裂的依据,获取最优特征和最优切分点;2)、用选定的对(j,s)划分区域并决定相应的输出值:R1(j,s)={x|xj<=s}R2(j,s)={x|xj>s}3)、继续对两个子区域调用步骤1),2),将输入空间划分为M个区域R1,R2,...,RM,生成决策树:进一步地,最优特征和最优切分点的准则如下:遍历特征变量j,对固定的切分特征变量j扫描切分点s,选择使上式达到最小的(j,s),切分点s将数据集划分成R1和R2,c1和c2分别是数据集R1和R2对应输出变量的算术平均值。优选地,变压器的历史数据是其近5-10年的数据。优选地,步骤S4中对n_tree个预测值的算术平均值即为最终预测值。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术提出了一种结合k-means和随机森林的集成学习算法,应用k-means聚类算法对原始训练集划分成k个簇,再针对每个簇构建随机森林,这样可以减少用于构建随机森林的训练样本,从而减少了每个特征的取值划分,从而减少了计算量,使算法效率有所提升。附图说明图1为本专利技术算法流程图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。如图1所示,一种结合k-means和随机森林的变压器油温预测方法,包括以下步骤:S1:获取变压器的历史数据作为原始训练集;S2:对原始训练集应用k-means聚类算法聚类,保存聚类结果,将原始训练集划分k个簇;S3:对每个簇训练集生成的多颗回归树组成对应簇训练集的随机森林;S4:对于待预测的输入样本,计算其到原始训练集中每个簇的簇中心的距离,选择其距离最近的那个簇对应的随机森林,将输入样本输入到该随机森林中n_tree颗回归树中得到n_tree个预测值进行处理得到最终预测值,对n_tree个预测值的算术平均值即为最终预测值。其中,变压器的历史数据是其近5-10年的数据;变压器的数据包括:负载率、环境温度、湿度、风速、油温,变压器负载率、环境温度、湿度、风速为输入特征变量,油温为输出变量。步骤S3中对于单个簇训练集训练具体步骤如下:1)、从单个簇训练集中取出m个样本;2)、生成n_tree个训练集,对n_tree个训练集,分别训练n_tree个cart回归决策树模型。其中,从单个簇训练集中进行n_tree次采样;从单个簇训练集中使用bootstraping方法随机有放回采样取出m个样本。单个回归决策树的建方法如下:1)、采用均方误差作为节点分裂的依据,获取最优特征和最优切分点;2)、用选定的对(j,s)划分区域并决定相应的输出值:R1(j,s)={x|xj<=s}R2(j,s)={x|xj>s}3)、继续对两个子区域调用步骤1),2),将输入空间划分为M个区域R1,R2,...,RM,生成决策树:其中,最优特征和最优切分点的准则如下:遍历特征变量j,对固定的切分特征变量j扫描切分点s,选择使上式达到最小的(j,s),切分点s将数据集划分成R1和R2,c1和c2分别是数据集R1和R2对应输出变量的算术平均值。相同或相似的标号对应相同或相似的部件;附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;显然,本专利技术的上述实施例仅仅是为清楚地说明本专利技术所作的举例,而并非是对本专利技术的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本专利技术的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本专利技术权利要求的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种结合k-means和随机森林的变压器油温预测方法,其特征在于,包括以下步骤:/nS1:获取变压器的历史数据作为原始训练集;/nS2:对原始训练集应用k-means聚类算法聚类,保存聚类结果,将原始训练集划分k个簇;/nS3:对每个簇训练集生成的多颗回归树组成对应簇训练集的随机森林;/nS4:对于待预测的输入样本,计算其到原始训练集中每个簇的簇中心的距离,选择其距离最近的那个簇对应的随机森林,将输入样本输入到该随机森林中n_tree颗回归树中得到n_tree个预测值进行处理得到最终预测值。/n

【技术特征摘要】
1.一种结合k-means和随机森林的变压器油温预测方法,其特征在于,包括以下步骤:
S1:获取变压器的历史数据作为原始训练集;
S2:对原始训练集应用k-means聚类算法聚类,保存聚类结果,将原始训练集划分k个簇;
S3:对每个簇训练集生成的多颗回归树组成对应簇训练集的随机森林;
S4:对于待预测的输入样本,计算其到原始训练集中每个簇的簇中心的距离,选择其距离最近的那个簇对应的随机森林,将输入样本输入到该随机森林中n_tree颗回归树中得到n_tree个预测值进行处理得到最终预测值。


2.根据权利要求1所述的结合k-means和随机森林的变压器油温预测方法,其特征在于,变压器的数据包括:负载率、环境温度、湿度、风速、油温。


3.根据权利要求2所述的结合k-means和随机森林的变压器油温预测方法,其特征在于,所述的变压器负载率、环境温度、湿度、风速为输入特征变量,油温为输出变量。


4.根据权利要求3所述的结合k-means和随机森林的变压器油温预测方法,其特征在于,所述步骤S3中对于单个簇训练集训练具体步骤如下:
1)、从单个簇训练集中取出m个样本;
2)、生成n_tree个训练集,对n_tree个训练集,分别训练n_tree个cart回归决策树模型。


5.根据权利要求4所述的结合k-means和随机森林的变压器油温预测方法,其特征在于,从单个簇训练集中进行n_tree次采样。


6.根...

【专利技术属性】
技术研发人员:皇甫汉聪王永才肖招娣庞维欣庞伟林
申请(专利权)人:广东电网有限责任公司广东电网有限责任公司佛山供电局
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1