【技术实现步骤摘要】
一种基于决策树算法识别用电类别的方法及系统
本公开涉及数据分析处理、机器学习领域,具体涉及一种基于决策树算法识别用电类别的方法及系统。
技术介绍
电力数据的用电性质分析一般来讲,主要是通过不同时间段的用电量的占比用电量、用电类别,从而分析出商业用电、工业用电、家庭用电。由于现有的电力数据种类多,数据采集方式多样,对于不同用户的用电情况和用电性质界定不清晰,因此出现了非居民用户执行居民电价的现象,损害了供电公司的经济效益,申请号为:CN201610118312.1的专利公开了一种基于大数据分析的用电性质认证方法,方法通过使用联机分析处理系统建立多维客户分析模型;依据不同的时间单位构建各用电类别的整体趋势模型;依据不同的时间单位构建用户各个用电类别的趋势模型以判定用户的用电类别;通过决策树数据挖掘算法对数据进行分类;根据两种分类方法的相同结果确定问题用户;然而:传统的决策树分类模型并不能准确的反映出用电性质的情况,在实践中时常出现漏报、误报等错误分类情况,因此,需要对其进行修正。
技术实现思路
本公开提供一种基于决策树算法识别用电类别的方法及系统,根据训练数据集建立决策树并对决策树进行剪枝处理优化得到用电性质识别模型,通过该优化的决策树模型,进行基于历史用电户样本数据(包括用电特征、用电性质),通过使用决策树算法,系统自动构建用电性质识别模型;最终,训练完成后,在模型结果中,可展示完整的决策树信息。本公开的目的是针对上述问题,提供一种基于决策树算法识别用电类别的方法及系统,具体包括以下步骤:<
【技术保护点】
1.一种基于决策树算法识别用电类别的方法,其特征在于,所述方法包括以下步骤:/nS100:读取电力数据集;/nS200:对电力数据集进行预处理和清洗;/nS300:将电力数据集划分为训练数据集和测试数据集;/nS400:根据训练数据集建立决策树;/nS500:对决策树进行剪枝处理得到用电性质识别模型;/nS600:通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。/n
【技术特征摘要】
1.一种基于决策树算法识别用电类别的方法,其特征在于,所述方法包括以下步骤:
S100:读取电力数据集;
S200:对电力数据集进行预处理和清洗;
S300:将电力数据集划分为训练数据集和测试数据集;
S400:根据训练数据集建立决策树;
S500:对决策树进行剪枝处理得到用电性质识别模型;
S600:通过用电性质识别模型输出决策树中各节点的目标字段分布取值、每个分支的概率、数值字段的取值、节点编号、节点字段索引。
2.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S200中,对电力数据集进行预处理和清洗的方法为:预处理为通过对电力数据集进行分类或分组前所做的审核、筛选、排序等必要的处理,即数据审核完整性和准确性、数据筛选、数据排序,即数据清理、数据集成、数据变换、数据归约;利用数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据,即清洗后的电力数据集。
3.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S300中,将电力数据集划分为训练数据集和测试数据集的方法包括:留出法、交叉验证法、自助法任意一种方法。
4.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S400中,根据训练数据集建立决策树的方法为:
S410:依次选择训练数据集中的用电类别属性作为节点,对用电类别属性的每种可能的取值创建一个分枝,并据此将训练数据集划分为几个子集;
S420:对每个分枝采取相同的方法,训练数据集是其父节点划分的若干子集中的对应于分枝取值的那个样本子集;
S430:当以出现下情况出现时停止节点分枝的分裂,并使其成为叶子节点:
情况1:给定节点的训练数据集中的所有电力数据属于同一类;
情况2:没有剩余属性能够用来划分训练数据集;
S440:给定节点的记录数小于叶子节点支持的最少记录数,则直接将给定节点设置为叶子节点,其值设置为大于1的整数。
5.根据权利要求1所述的一种基于决策树算法识别用电类别的方法,其特征在于,在S400中,还要对决策树的参数进行调优,调优的方法包括以下步骤:
T410:令种群规模NS=20;代数t=0;
T420:随机生成种群规模NS的个体组成初始种群,其中种群中的每个个体存储了决策树的剪枝簇数C和置信边界为g;
T430:逐个计算种群中所有个体...
【专利技术属性】
技术研发人员:金昌铉,王淼,程俊春,朱宇龙,马博,赵永国,刘森,黎晚晴,张君,梁惠欣,
申请(专利权)人:中国南方电网有限责任公司,南方电网数字电网研究院有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。