一种基于决策树模型的电力用能数据存储优化方法技术

技术编号：24409651 阅读：17 留言：0更新日期：2020-06-06 08:37

本发明专利技术公开了一种基于决策树模型的电力用能数据存储优化方法，涉及一种电力数据存储领域，对于高频采集、低实时性业务场景的数据，已有的高效存储方法不能满足要求。本发明专利技术基于适应于HBase多存储格式进行特点分析，将采集实际应用场景划分，通过决策树模型选择合适的数据存储格式，选出最优的HBase存储方式，以此来优化高频采集数据存储空间。本技术方案采用多种格式的数据存储方式，根据不同的情况择优进行存储，弥补目前对于高频采集数据存储空间优化的不足，节省电力用能数据在大数据平台存储资源空间，提高HBase读写性；解决电力用能数据存储问题，为电力用能提供一个规范的HBase存储优化方法，具有易实现的、高效的特点。

An optimization method for data storage of power consumption based on decision tree model

全部详细技术资料下载

【技术实现步骤摘要】
一种基于决策树模型的电力用能数据存储优化方法
本专利技术涉及一种电力数据存储领域，尤其涉及一种基于决策树模型的电力用能数据存储优化方法。
技术介绍
随着大数据技术在用电采集系统中运用的不断成熟，越来越多的数业务迁移至用电采集大数据平台(以下简称：用采大数据平台)，井喷式电力用能数据使采大数据平台的存储空间面临着存不足以及数据存储效率低下两大方面的问题。现有用采大数据平台的电力用能数据主要存至HBase中，为了解决用能数据存储问题，急需解决HBase存储优化。现有的HBase存储优化主要有：一、按列、按区、按列、区混合等数据压缩策略只是应用于这些处理方法只适用于一次写入表HBase表，例如档案数据表；二、缓存加载方式及批量加载方式在一定程度上降低了HBaseI/O开销，适用于对延时容忍较高的场景，例如异构数据迁移。对于高频采集、低实时性业务场景的数据，呈现出高频增长，延时容忍低等特点，已有的高效存储方法不能满足要求。
技术实现思路
本专利技术要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进，提供一种基于决策树模型的电力用能数据存储优化方法，以达到弥补目前对于高频采集数据存储空间优化的不足，节省电力用能数据在大数据平台存储资源空间，提高HBase读写性能的目的。为此，本专利技术采取以下技术方案。一种基于决策树模型的电力用能数据存储优化方法，包括以下步骤：1)获取需存储的数据业务需求；2)根据业务需求判断获取的数据是否为迁移数据，若是则进入步骤3)；若否，则...

【技术保护点】
1.一种基于决策树模型的电力用能数据存储优化方法，其特征在于包括以下步骤：/n1)获取需存储的数据业务需求；/n2)根据业务需求判断获取的数据是否为迁移数据，若是则进入步骤3)；若否，则进入步骤4)；/n3)进行数据特征的提取，将特征属性输入迁移存储决策树模型中，获得存储方案；/n4)进行数据特征的提取，将特征属性输入Kafka数据源决策树模型中，获得存储方案；/n5)根据步骤3)或步骤4)得到的存储方案集判断存储方案的个数是否大于1；若否，此方案为最优存储方案，否则进入下一步骤；/n6)判断是否为日增长数据；若是则进入步骤7)，若否则进入步骤8)；/n7)根据日增长数据，通过轻存储最优模型获得各存储方案的权重；/n8)根据存储量，通过易操作最优模型获得各存储方案的权重；/n9)结合步骤3)或步骤4)得到的存储方案集及步骤7)或步骤8)获得的各存储方案的权重，得到最优存储方案。/n

【技术特征摘要】
1.一种基于决策树模型的电力用能数据存储优化方法，其特征在于包括以下步骤：
1)获取需存储的数据业务需求；
2)根据业务需求判断获取的数据是否为迁移数据，若是则进入步骤3)；若否，则进入步骤4)；
3)进行数据特征的提取，将特征属性输入迁移存储决策树模型中，获得存储方案；
4)进行数据特征的提取，将特征属性输入Kafka数据源决策树模型中，获得存储方案；
5)根据步骤3)或步骤4)得到的存储方案集判断存储方案的个数是否大于1；若否，此方案为最优存储方案，否则进入下一步骤；
6)判断是否为日增长数据；若是则进入步骤7)，若否则进入步骤8)；
7)根据日增长数据，通过轻存储最优模型获得各存储方案的权重；
8)根据存储量，通过易操作最优模型获得各存储方案的权重；
9)结合步骤3)或步骤4)得到的存储方案集及步骤7)或步骤8)获得的各存储方案的权重，得到最优存储方案。

2.根据权利要求1所述的一种基于决策树模型的电力用能数据存储优化方法，其特征在于：迁移存储决策树模型、Kafka数据源决策树模型均通过ID3算法训练得出；ID3算法将给定的样本计集合作为根结点，以信息增益率为标准确定最佳分组和最佳分割点；分别计算当前样本集合里的每个特征属性的信息增益，并从信息增益集合中选取信息增益最大的作为根结点，然后根据该属性值进行分支。

3.根据权利要求2所述的一种基于决策树模型的电力用能数据存储优化方法，其特征在于：ID3算法步骤包括:
a)信息熵，假设数据集合为D，样本的个数为K，则数据集D的经验熵表示为:

其中Ck是样本集合D中属于第k类的样本子集，|Ck|表示该子集的元素个数，|D|表示元素集合的元素个数。
b)信息熵，某个特征A对于数据集D的经验条件熵H(D|A)为

其中，Di表示D中特征A取第i个值的样本子集。
c)信息增益，信息增益的衡量标准，就是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要；
g(D，A)＝H(D)-H(D|A)(3-3)

4.根据权利要求3所述的一种基于决策树模型的电力用能数据存储优化方法，其特征在于：迁移存储决策树模型、Kafka数据源决策树模型输出的存储方案为Protobuf、Json、Normal中的一个或多个。<...

【专利技术属性】
技术研发人员：王伟峰，姜驰，严华江，孙剑桥，沈曙明，韩霄汉，潘巍巍，窦健，麻吕斌，郁春雷，
申请(专利权)人：国网浙江省电力有限公司电力科学研究院，国网浙江省电力有限公司，中国电力科学研究院有限公司，浙江华云信息科技有限公司，国家电网有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人