【技术实现步骤摘要】
一种基于机器学习的台区数据缺失值补全方法和装置
本专利技术涉及用电信息采集及分析
,特别是一种基于机器学习的台区数据缺失值补全方法和装置。
技术介绍
随着科学技术的不断进步和国民经济的不断发展,我国电力工业体制逐步向电力市场转换,电能作为商品走入市场,已成为一种重要能源得到广泛的应用。电能具有宜于大量生产、集中管理、远距离输送、自动控制、有利环保、易于转换成为其它形式的能量等优点。作为清洁能源,电能被广为利用于国民经济和人民的生活的各个方面。电能通过输电、变电和配电的各个环节供给用户,在电能的输送和分配过程中,电力网络都要产生一定数量的电能损耗,简称线损。电力系统为社会提供着清洁方便的能源,同时它在转换、输送、分配过程中的消耗也是巨大的。随着近年来机器学习和数据挖掘等技术的发展,结合智能用电大数据的电力系统台区线损管理的应用逐渐成为行业研究热点和发展方向。大数据具有海量性、多样性和快速性,基于数据驱动的方法对多元信息的处理更具有直接性和有效性。它以用电信息采集系统的数据为基底,利用各种数据挖掘技术获得其中隐含的 ...
【技术保护点】
1.一种台区数据缺失值补全方法,其特征是,包括:/n获取待补全的原始数据集,原始数据集包括多个数据指标的原始数据序列;/n按照预先确定的需补全指标类型,从原始数据集中筛选出需要进行补全的数据指标的原始数据序列;/n针对各待补全的数据指标,将其原始数据序列及序列中数据的时间信息,作为预先构建的缺失值补全模型的输入,输出得到相应数据指标补全后的数据序列。/n
【技术特征摘要】
1.一种台区数据缺失值补全方法,其特征是,包括:
获取待补全的原始数据集,原始数据集包括多个数据指标的原始数据序列;
按照预先确定的需补全指标类型,从原始数据集中筛选出需要进行补全的数据指标的原始数据序列;
针对各待补全的数据指标,将其原始数据序列及序列中数据的时间信息,作为预先构建的缺失值补全模型的输入,输出得到相应数据指标补全后的数据序列。
2.根据权利要求1所述的台区数据缺失值补全方法,其特征是,所述预先确定的需补全指标类型,根据数据指标与线损率的相关系数确定,确定方法包括:
获取历史台区数据集样本,从中得到对应各数据指标的历史数据序列样本;
基于各数据指标的历史数据序列样本,分别计算各数据指标与线损率的相关系数;
按照相关系数大小顺序,选取相关系数较大的前k个数据指标类型,即为需补全的指标类型。
3.根据权利要求1所述的台区数据缺失值补全方法,其特征是,所述各数据指标与线损率的相关系数r利用皮尔逊相关系数算法得到:
式中,x1,x2,…xn;y1,y2,…yn分别为X、Y两个随机变量的样本数据序列,n为序列中的数据样本个数,分别表示X、Y的样本均值。
4.根据权利要求1所述的台区数据缺失值补全方法,其特征是,所述缺失值补全模型为针对各需补全的指标类型分别构建的支持向量机SVM模型;
针对任一需补全的指标类型,缺失值补全模型的构建包括:
从多个历史台区数据集样本中选取对应该指标类型的多个历史数据序列样本;
将各历史数据序列样本中的各数据样本关联其时间信息;
利用数据关联时间信息后的多个历史数据序列样本训练得到相应指标类型的SVM缺失值补全模型。
5.根据权利要求4所述的台区数据缺失值补全方法,其特征是,缺失值补全模型的构建还包括,对训练得到的SVM缺失值补全模型进行模型验证:
从多个历史数据序列样本中选取测试样本;
缺省测试样本中的部分数据;
将数据缺省后的样本作为SVM缺失值补全模型的输入,得到补全后的数据序列;
将补全后的数据序列与原测试样本数据序列进行比较,计算两者误差;
若两者误差大于设定阈值,则更新...
【专利技术属性】
技术研发人员:吴伟将,周玉,杨世海,陆婋泉,林鹤,崔高颖,易永仙,夏倩倩,李欣然,孙国强,
申请(专利权)人:国网江苏省电力有限公司电力科学研究院,国家电网有限公司,国网江苏省电力有限公司,国网江苏省电力有限公司南京市江北新区供电分公司,河海大学,江苏省电力试验研究院有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。