一种基于决策树模型的电力用能数据存储优化方法技术

技术编号:24409651 阅读:17 留言:0更新日期:2020-06-06 08:37
本发明专利技术公开了一种基于决策树模型的电力用能数据存储优化方法,涉及一种电力数据存储领域,对于高频采集、低实时性业务场景的数据,已有的高效存储方法不能满足要求。本发明专利技术基于适应于HBase多存储格式进行特点分析,将采集实际应用场景划分,通过决策树模型选择合适的数据存储格式,选出最优的HBase存储方式,以此来优化高频采集数据存储空间。本技术方案采用多种格式的数据存储方式,根据不同的情况择优进行存储,弥补目前对于高频采集数据存储空间优化的不足,节省电力用能数据在大数据平台存储资源空间,提高HBase读写性;解决电力用能数据存储问题,为电力用能提供一个规范的HBase存储优化方法,具有易实现的、高效的特点。

An optimization method for data storage of power consumption based on decision tree model

【技术实现步骤摘要】
一种基于决策树模型的电力用能数据存储优化方法
本专利技术涉及一种电力数据存储领域,尤其涉及一种基于决策树模型的电力用能数据存储优化方法。
技术介绍
随着大数据技术在用电采集系统中运用的不断成熟,越来越多的数业务迁移至用电采集大数据平台(以下简称:用采大数据平台),井喷式电力用能数据使采大数据平台的存储空间面临着存不足以及数据存储效率低下两大方面的问题。现有用采大数据平台的电力用能数据主要存至HBase中,为了解决用能数据存储问题,急需解决HBase存储优化。现有的HBase存储优化主要有:一、按列、按区、按列、区混合等数据压缩策略只是应用于这些处理方法只适用于一次写入表HBase表,例如档案数据表;二、缓存加载方式及批量加载方式在一定程度上降低了HBaseI/O开销,适用于对延时容忍较高的场景,例如异构数据迁移。对于高频采集、低实时性业务场景的数据,呈现出高频增长,延时容忍低等特点,已有的高效存储方法不能满足要求。
技术实现思路
本专利技术要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供一种基于决策树模型的电力用能数据存储优化方法,以达到弥补目前对于高频采集数据存储空间优化的不足,节省电力用能数据在大数据平台存储资源空间,提高HBase读写性能的目的。为此,本专利技术采取以下技术方案。一种基于决策树模型的电力用能数据存储优化方法,包括以下步骤:1)获取需存储的数据业务需求;2)根据业务需求判断获取的数据是否为迁移数据,若是则进入步骤3);若否,则进入步骤4);3)进行数据特征的提取,将特征属性输入迁移存储决策树模型中,获得存储方案;4)进行数据特征的提取,将特征属性输入Kafka数据源决策树模型中,获得存储方案;5)根据步骤3)或步骤4)得到的存储方案集判断存储方案的个数是否大于1;若否,此方案为最优存储方案,否则进入下一步骤;6)判断是否为日增长数据;若是则进入步骤7),若否则进入步骤8);7)根据日增长数据,通过轻存储最优模型获得各存储方案的权重;8)根据存储量,通过易操作最优模型获得各存储方案的权重;9)结合步骤3)或步骤4)得到的存储方案集及步骤7)或步骤8)获得的各存储方案的权重,得到最优存储方案。本技术方案采用多种格式的数据存储方式,根据不同的情况择优进行存储,弥补目前对于高频采集数据存储空间优化的不足,节省电力用能数据在大数据平台存储资源空间,提高HBase读写性;解决电力用能数据存储问题,为电力用能提供一个规范的HBase存储优化方法,具有易实现的、高效的特点,方便平台存储格式选择的规范化操作,便于后期平台存储资源的管理。作为优选技术手段:迁移存储决策树模型、Kafka数据源决策树模型均通过ID3算法训练得出;ID3算法将给定的样本计集合作为根结点,以信息增益率为标准确定最佳分组和最佳分割点;分别计算当前样本集合里的每个特征属性的信息增益,并从信息增益集合中选取信息增益最大的作为根结点,然后根据该属性值进行分支。作为优选技术手段:ID3算法步骤包括:d)信息熵,假设数据集合为D,样本的个数为K,则数据集D的经验熵表示为:其中Ck是样本集合D中属于第k类的样本子集,|Ck|表示该子集的元素个数,|D|表示元素集合的元素个数。e)信息熵,某个特征A对于数据集D的经验条件熵H(D|A)为其中,Di表示D中特征A取第i个值的样本子集。f)信息增益,信息增益的衡量标准,就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要;g(D,A)=H(D)-H(D|A)(3-3)。作为优选技术手段:迁移存储决策树模型、Kafka数据源决策树模型输出的存储方案为Protobuf、Json、Normal中的一个或多个。作为优选技术手段:轻存储最优模型、易操作最优模型中的各存储方案的权重根据存储大小、读写性能计算获得。作为优选技术手段:轻存储最优模型中存储不同范围的日增长量及与之对应的各存储方案的权重值,以根据实际的日增长量规模查询轻存储最优模型获得Normal、Json、Protobuf三种存储格式的权重。作为优选技术手段:易操作最优模型中存储不同范围的存储量及与之对应的各存储方案的权重值,以根据实际的存储量规模查询易操作最优模型获得Normal、Json、Protobuf三种存储格式的权重。作为优选技术手段:在步骤3)中,迁移数据是将关系型数据库中的档案表、结果表、统计表等数据同步到HBase中,此类数据结构固定,为结构化数据,结合业务场景和需求,决策树属性集合选用:{数据类型,字段嵌套,读表形式,是否过滤};其中数据类型:是根据数据来源进行具体分类,分为档案数据、结构数据、统计数据;字段嵌套:根据业务场景需求,存储是否是嵌套式;读表形式:业务场景中与表的交互方式,分为全行扫描和部分字段读取;是否过滤:业务场景中按条件与表的交互方式,分为是和否。作为优选技术手段:在步骤4)中,Kafka数据源决策模型数据来源是Kafka,通常是通过前置机采集上送的数据,数据结构无规则,具有:结构化、半结构化、非结构化特征,选用的数据特征在异构数据迁移特征基础之上增加结构化数据特征,具体的特征包含:{数据类型,字段嵌套,数据结构,读表形式,是否过滤},其中:数据类型:是根据数据来源进行具体分类,分为采集数据(前置机推送的采集数据)、异常日志、操作日志、原始报文;字段嵌套:根据业务场景需求,存储是否是嵌套式;数据结构:存储数据的结构,分为结构化、半结构化、非结构化;读表形式:业务场景中与表的交互方式,分为全行扫描和部分字段读取;是否过滤:业务场景中按条件与表的交互方式,分为是和否。有益效果:1、基于决策树模型的提出的优化方案,存储方式选择更加规范和科学,便于实现平台存储资源的管理,为后期存储选择提供参考依据。2、引入轻量级存储方式,能够实现实时入库数据存储优化,解决了实时采集数据表不易操作,低延时入库需求的难题。3、结合多存储格式的各自特点,根据业务场景和需求,制定三种数据格式存储方式,具有如下几个方面的优点:(1)从业务场景和需求角度出发的定制的存储方式,不仅实现了合理规划平台存储空间利用率,还能满足后期业务场景需求;(2)不同于传统的优化模型,需要对数据进行逐条或是逐批进行计算处理,合理的数据格式存储选取,降低了传统优化模型的时间成本和计算资源。附图说明图1是本专利技术的流程图。图2、3是本专利技术的决策树图。具体实施方式以下结合说明书附图对本专利技术的技术方案做进一步的详细说明。如图1所示,本专利技术包括以下步骤:一种基于决策树模型的电力用能数据存储优化方法,包括以下步骤:1)获取需存储的数据业务需求;2)根据业务需求判本文档来自技高网...

【技术保护点】
1.一种基于决策树模型的电力用能数据存储优化方法,其特征在于包括以下步骤:/n1)获取需存储的数据业务需求;/n2)根据业务需求判断获取的数据是否为迁移数据,若是则进入步骤3);若否,则进入步骤4);/n3)进行数据特征的提取,将特征属性输入迁移存储决策树模型中,获得存储方案;/n4)进行数据特征的提取,将特征属性输入Kafka数据源决策树模型中,获得存储方案;/n5)根据步骤3)或步骤4)得到的存储方案集判断存储方案的个数是否大于1;若否,此方案为最优存储方案,否则进入下一步骤;/n6)判断是否为日增长数据;若是则进入步骤7),若否则进入步骤8);/n7)根据日增长数据,通过轻存储最优模型获得各存储方案的权重;/n8)根据存储量,通过易操作最优模型获得各存储方案的权重;/n9)结合步骤3)或步骤4)得到的存储方案集及步骤7)或步骤8)获得的各存储方案的权重,得到最优存储方案。/n

【技术特征摘要】
1.一种基于决策树模型的电力用能数据存储优化方法,其特征在于包括以下步骤:
1)获取需存储的数据业务需求;
2)根据业务需求判断获取的数据是否为迁移数据,若是则进入步骤3);若否,则进入步骤4);
3)进行数据特征的提取,将特征属性输入迁移存储决策树模型中,获得存储方案;
4)进行数据特征的提取,将特征属性输入Kafka数据源决策树模型中,获得存储方案;
5)根据步骤3)或步骤4)得到的存储方案集判断存储方案的个数是否大于1;若否,此方案为最优存储方案,否则进入下一步骤;
6)判断是否为日增长数据;若是则进入步骤7),若否则进入步骤8);
7)根据日增长数据,通过轻存储最优模型获得各存储方案的权重;
8)根据存储量,通过易操作最优模型获得各存储方案的权重;
9)结合步骤3)或步骤4)得到的存储方案集及步骤7)或步骤8)获得的各存储方案的权重,得到最优存储方案。


2.根据权利要求1所述的一种基于决策树模型的电力用能数据存储优化方法,其特征在于:迁移存储决策树模型、Kafka数据源决策树模型均通过ID3算法训练得出;ID3算法将给定的样本计集合作为根结点,以信息增益率为标准确定最佳分组和最佳分割点;分别计算当前样本集合里的每个特征属性的信息增益,并从信息增益集合中选取信息增益最大的作为根结点,然后根据该属性值进行分支。


3.根据权利要求2所述的一种基于决策树模型的电力用能数据存储优化方法,其特征在于:ID3算法步骤包括:
a)信息熵,假设数据集合为D,样本的个数为K,则数据集D的经验熵表示为:



其中Ck是样本集合D中属于第k类的样本子集,|Ck|表示该子集的元素个数,|D|表示元素集合的元素个数。
b)信息熵,某个特征A对于数据集D的经验条件熵H(D|A)为



其中,Di表示D中特征A取第i个值的样本子集。
c)信息增益,信息增益的衡量标准,就是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要;
g(D,A)=H(D)-H(D|A)(3-3)


4.根据权利要求3所述的一种基于决策树模型的电力用能数据存储优化方法,其特征在于:迁移存储决策树模型、Kafka数据源决策树模型输出的存储方案为Protobuf、Json、Normal中的一个或多个。<...

【专利技术属性】
技术研发人员:王伟峰姜驰严华江孙剑桥沈曙明韩霄汉潘巍巍窦健麻吕斌郁春雷
申请(专利权)人:国网浙江省电力有限公司电力科学研究院国网浙江省电力有限公司中国电力科学研究院有限公司浙江华云信息科技有限公司国家电网有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1