一种基于决策树算法识别用电类别的方法及系统技术方案

技术编号:24355310 阅读:115 留言:0更新日期:2020-06-03 02:26
本发明专利技术公开了一种基于决策树算法识别用电类别的方法及系统,根据训练数据集建立决策树并对决策树进行剪枝处理优化得到用电性质识别模型,通过该优化的决策树模型,进行基于历史用电户样本数据,包括用电特征、用电性质,通过使用决策树算法,系统自动构建用电性质识别模型;最终训练完成后,在模型结果中可展示完整的决策树信息,能够承载较大数据量,通过参数对决策树剪枝参数的自动调优,有利于提高分类预测覆盖度,能够准确的反映出用电性质的情况,减少漏报、误报等错误分类情况。

A method and system for identifying power consumption categories based on decision tree algorithm

【技术实现步骤摘要】
一种基于决策树算法识别用电类别的方法及系统
本公开涉及数据分析处理、机器学习领域,具体涉及一种基于决策树算法识别用电类别的方法及系统。
技术介绍
电力数据的用电性质分析一般来讲,主要是通过不同时间段的用电量的占比用电量、用电类别,从而分析出商业用电、工业用电、家庭用电。由于现有的电力数据种类多,数据采集方式多样,对于不同用户的用电情况和用电性质界定不清晰,因此出现了非居民用户执行居民电价的现象,损害了供电公司的经济效益,申请号为:CN201610118312.1的专利公开了一种基于大数据分析的用电性质认证方法,方法通过使用联机分析处理系统建立多维客户分析模型;依据不同的时间单位构建各用电类别的整体趋势模型;依据不同的时间单位构建用户各个用电类别的趋势模型以判定用户的用电类别;通过决策树数据挖掘算法对数据进行分类;根据两种分类方法的相同结果确定问题用户;然而:传统的决策树分类模型并不能准确的反映出用电性质的情况,在实践中时常出现漏报、误报等错误分类情况,因此,需要对其进行修正。
技术实现思路
本公开提供一种基于决策树算法识别用电类别的方法及系统,根据训练数据集建立决策树并对决策树进行剪枝处理优化得到用电性质识别模型,通过该优化的决策树模型,进行基于历史用电户样本数据(包括用电特征、用电性质),通过使用决策树算法,系统自动构建用电性质识别模型;最终,训练完成后,在模型结果中,可展示完整的决策树信息。本公开的目的是针对上述问题,提供一种基于决策树算法识别用电类别的方法及系统,具体包括以下步骤:<br>S100:读取电力数据集;所述电力数据集是电力数据的集合,包括用电量的占比用电量、用电类别属性;用电类别属性包括商业用电、工业用电、家庭用电;S200:对电力数据集进行预处理和清洗;S300:将电力数据集划分为训练数据集和测试数据集;S400:根据训练数据集建立决策树;S500:对决策树进行剪枝处理得到用电性质识别模型;S600:通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。进一步地,在S200中,对电力数据集进行预处理和清洗的方法为:预处理为通过对电力数据集进行分类或分组前所做的审核、筛选、排序等必要的处理,即数据审核完整性和准确性、数据筛选、数据排序,即数据清理、数据集成、数据变换、数据归约;利用数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据,即清洗后的电力数据集。进一步地,在S300中,将电力数据集划分为训练数据集和测试数据集的方法包括:留出法、交叉验证法、自助法任意一种方法。进一步地,在S400中,根据训练数据集建立决策树的方法为:S410:依次选择训练数据集中的用电类别属性作为节点,对用电类别属性的每种可能的取值创建一个分枝,并据此将训练数据集划分为几个子集;S420:对每个分枝采取相同的方法,训练数据集是其父节点划分的若干子集中的对应于该分枝取值的那个样本子集;S430:当以出现下情况出现时停止该节点分枝的分裂,并使其成为叶子节点:情况1:给定节点的训练数据集中的所有电力数据属于同一类;情况2:没有剩余属性可以用来进一步划分训练数据集;S440:给定节点的记录数小于叶子节点支持的最少记录数,则直接将给定节点设置为叶子节点,其值应该设置大于1的整数;所述决策树包括二叉树和多叉树。进一步地,在S400中,还要对决策树的参数进行调优,调优的方法包括以下步骤:T410:令种群规模NS=20;代数t=0;T420:随机生成种群规模NS的个体组成初始种群,其中种群中的每个个体存储了决策树的剪枝簇数C和置信边界为g;T430:逐个计算种群中所有个体的适应值,并选出最优个体gBXt;T440:从种群中随机选择出一个个体执行全局搜索,搜索方法为:其中为全局搜索得到的新个体,IXt和RXt为从种群中随机选择出来的两个不相等的个体,LS为搜索系数,sr为[0,1]之间的随机实数,MAXT为最大演化代数,exp为指数函数,log为对数函数;T450:计算的适应值;如果的适应值小于RXt的适应值,则在种群中用替换RXt,否则保持RXt不变;T460:保存最优个体gBXt,然后设置当前代数t=t+1;T470:如果代数大于20则转到T430,代数小于等于20转到步骤T480;T480:将种群中的最优个体调整为决策树的参数。进一步地,在S500中,对决策树进行剪枝处理得到用电性质识别模型的方法为:剪枝处理方式有不剪枝和剪枝两种方式;剪枝方法有两种,减少误差法是按簇数进行剪枝,如果簇数设置为3,随机选取(即随机种子设置的作用,可设置正整数)2份做训练,用其余的一份数据来修正模型,剪枝簇数的设置与建模数据量有关,若数据量大于100,则应该设置2~100的整数,否则应该设置2~数据量之间的整数;按置信边界剪枝是根据置信边界计算节点的误差估计值,然后进行剪枝,选取误差率最小的节点,置信边界应该设置(0,1)之间的数;其中,判断是否需要进行剪枝处理的方法为:使用训练数据集来估计剪枝前后的误差,从而决定是否进行剪枝处理:计算置信度的上限:其中N是电力数据的数量,Pr为概率密度函数,E为N个电力数据的用电类别属性出现错误的个数,q为真实的误差率,c为置信度,c的默认值为0.25,z为对应于置信度c的标准差。进一步地,通过用电性质识别模型将测试数据集进行分类。本专利技术还提供了一种基于决策树算法识别用电类别的系统,所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:数据集读取单元,用于读取电力数据集;数据集预处理单元,用于对电力数据集进行预处理和清洗;数据集划分单元,用于将电力数据集划分为训练数据集和测试数据集;决策树建立单元,用于根据训练数据集建立决策树;剪枝处理单元,用于对决策树进行剪枝处理得到用电性质识别模型;模型输出单元,用于通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。本公开的有益效果为:本专利技术公开了一种基于决策树算法识别用电类别的方法,能够承载较大数据量,通过参数对决策树剪枝参数的自动调优,有利于提高分类预测覆盖度,能够准确的反映出用电性质的情况,减少漏报、误报等错误分类情况。附图说明通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:...

【技术保护点】
1.一种基于决策树算法识别用电类别的方法,其特征在于,所述方法包括以下步骤:/nS100:读取电力数据集;/nS200:对电力数据集进行预处理和清洗;/nS300:将电力数据集划分为训练数据集和测试数据集;/nS400:根据训练数据集建立决策树;/nS500:对决策树进行剪枝处理得到用电性质识别模型;/nS600:通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。/n

【技术特征摘要】
1.一种基于决策树算法识别用电类别的方法,其特征在于,所述方法包括以下步骤:
S100:读取电力数据集;
S200:对电力数据集进行预处理和清洗;
S300:将电力数据集划分为训练数据集和测试数据集;
S400:根据训练数据集建立决策树;
S500:对决策树进行剪枝处理得到用电性质识别模型;
S600:通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。


2.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S200中,对电力数据集进行预处理和清洗的方法为:预处理为通过对电力数据集进行分类或分组前所做的审核、筛选、排序等必要的处理,即数据审核完整性和准确性、数据筛选、数据排序,即数据清理、数据集成、数据变换、数据归约;利用数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据,即清洗后的电力数据集。


3.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S300中,将电力数据集划分为训练数据集和测试数据集的方法包括:留出法、交叉验证法、自助法任意一种方法。


4.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S400中,根据训练数据集建立决策树的方法为:
S410:依次选择训练数据集中的用电类别属性作为节点,对用电类别属性的每种可能的取值创建一个分枝,并据此将训练数据集划分为几个子集;
S420:对每个分枝采取相同的方法,训练数据集是其父节点划分的若干子集中的对应于分枝取值的那个样本子集;
S430:当以出现下情况出现时停止节点分枝的分裂,并使其成为叶子节点:
情况1:给定节点的训练数据集中的所有电力数据属于同一类;
情况2:没有剩余属性能够用来划分训练数据集;
S440:给定节点的记录数小于叶子节点支持的最少记录数,则直接将给定节点设置为叶子节点,其值设置为大于1的整数。


5.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S400中,还要对决策树的参数进行调优,调优的方法包括以下步骤:
T410:令种群规模NS=20;代数t=0;
T420:随机生成种群规模NS的个体组成初始种群,其中种群中的每个个体存储了决策树的剪枝簇数C和置信边界为g;
T430:逐个计算种群中所有个体...

【专利技术属性】
技术研发人员:金昌铉王淼程俊春朱宇龙马博赵永国刘森黎晚晴张君梁惠欣
申请(专利权)人:中国南方电网有限责任公司南方电网数字电网研究院有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1