用于能源大数据的跨时空双向数据缺失值填充方法和装置制造方法及图纸

技术编号:32574737 阅读:23 留言:0更新日期:2022-03-09 17:03
本发明专利技术提供了一种用于能源大数据的跨时空双向数据缺失值填充方法和装置,该方法包括:在待训练目标数据表格中筛选出含缺失值的行作为第一数据表,并筛选出数据齐整的行作为第二数据表;根据第二数据表计算各特征的平均值和中值;采用0值、平均值和中值对第一数据表中各特征对应列的缺失值进行填充,将填充后的第三数据表、第四数据表和第五数据表插入第二数据表,形成第六数据表、第七数据表和第八数据表;将第六数据表、第七数据表和第八数据表按照50%比例以时间为作为键值拆分为第一训练数据集和第一交叉验证数据集、第二训练数据集和第二交叉验证数据集以及第三训练数据集和第三交叉验证数据集,并对目标神经网络进行训练,以获取预测模型。以获取预测模型。以获取预测模型。

【技术实现步骤摘要】
用于能源大数据的跨时空双向数据缺失值填充方法和装置


[0001]本专利技术涉及数据处理
,具体涉及一种用于能源大数据的跨时空双向数据缺失值填充方法和一种用于能源大数据的跨时空双向数据缺失值填充装置。

技术介绍

[0002]相关技术中,在对数据集进行分析和挖掘时,由于数据存在缺失的情况,因此在数据集输入机器学习模型和深度学习模型进行训练时会造成模型无法正常工作,从而导致数据分析和挖掘工作无法正常运行。

技术实现思路

[0003]本专利技术为解决上述技术问题,提供了一种用于能源大数据的跨时空双向数据缺失值填充方法,能够对数据集的缺失值进行准确地填充,确保了数据分析和挖掘工作的正常进行。
[0004]本专利技术采用的技术方案如下:
[0005]一种用于能源大数据的跨时空双向数据缺失值填充方法,包括以下步骤:在待训练目标数据表格中筛选出含缺失值的行作为第一数据表,并筛选出数据齐整的行作为第二数据表;根据所述第二数据表计算各特征的平均值和中值;分别采用0值、所述平均值和所述中值对所述第一数据表中各特征对应列的缺失值进行填充,以形成第三数据表、第四数据表和第五数据表;分别将所述第三数据表、所述第四数据表和所述第五数据表插入所述第二数据表中,以形成第六数据表、第七数据表和第八数据表;将所述第六数据表按照50%比例以时间为作为键值拆分为第一训练数据集和第一交叉验证数据集,并将所述第七数据表按照50%比例以时间为作为键值拆分为第二训练数据集和第二交叉验证数据集,以及将所述第八数据表按照50%比例以时间为作为键值拆分为第三训练数据集和第三交叉验证数据集;根据所述第一训练数据集、所述第一交叉验证数据集、所述第二训练数据集、所述第二交叉验证数据集、所述第三训练数据集和所述第三交叉验证数据集对目标神经网络进行训练,以获取预测模型;采用所述预测模型对待填充数据集进行预测,以获取目标检测数据集。
[0006]所述根据所述第一训练数据集、所述第一交叉验证数据集、所述第二训练数据集、所述第二交叉验证数据集、所述第三训练数据集和所述第三交叉验证数据集对目标神经网络进行训练,以获取预测模型,包括:根据所述第一训练数据集对所述目标神经网络进行训练,以获取第一目标模型,并分别采用所述第二交叉验证数据集和所述第三交叉验证数据集进行验证,以获取所述第一目标模型的第一MAE指标和第二MAE指标;根据所述第二训练数据集对所述目标神经网络进行训练,以获取第二目标模型,并采用所述第一交叉验证数据集和所述第三交叉验证数据集进行验证,以获取所述第二目标模型的第三MAE指标和第四MAE指标;根据所述第三训练数据集对所述目标神经网络进行训练,以获取第三目标模型,并采用所述第一交叉验证数据集和所述第二交叉验证数据集进行验证,以获取所述第
三目标模型的第五MAE指标和第六MAE指标;分别计算所述第一MAE指标和所述第二MAE指标的第一平均值、所述第三MAE指标和所述第四MAE指标的第二平均值以及所述第五MAE指标和所述第六MAE指标的第三平均值;比较所述第一平均值、所述第二平均值和所述第三平均值的大小,并将最大的平均值对应的目标模型作为所述预测模型。
[0007]所述采用所述预测模型对待填充数据集进行预测,以获取目标检测数据集,包括:将所述待填充数据集按照时间戳倒序排列,以生成倒序数据集;判断待填充数据在所述待填充数据集的位置;如果所述待填充数据在所述待填充数据集中的行数小于或等于第一预设值,则根据所述倒序数据集采用所述预测模型对所述待填充数据进行预测;如果所述待填充数据在所述待填充数据集中的行数大于或等于第二预设值,则根据所述待填充数据集采用所述预测模型对所述待填充数据进行预测
[0008]一种用于能源大数据的跨时空双向数据缺失值填充装置,包括:数据筛选模块,所述数据筛选模块用于在待训练目标数据表格中筛选出含缺失值的行作为第一数据表,并筛选出数据齐整的行作为第二数据表;计算模块,所述计算模块用于根据所述第二数据表计算各特征的平均值和中值;数据填充模块,所述数据填充模块用于分别采用0值、所述平均值和所述中值对所述第一数据表中各特征对应列的缺失值进行填充,以形成第三数据表、第四数据表和第五数据表;插入模块,所述插入模块用于分别将所述第三数据表、所述第四数据表和所述第五数据表插入所述第二数据表中,以形成第六数据表、第七数据表和第八数据表;数据拆分模块,所述数据拆分模块用于将所述第六数据表按照50%比例以时间为作为键值拆分为第一训练数据集和第一交叉验证数据集,并将所述第七数据表按照50%比例以时间为作为键值拆分为第二训练数据集和第二交叉验证数据集,以及将所述第八数据表按照50%比例以时间为作为键值拆分为第三训练数据集和第三交叉验证数据集;训练模块,所述训练模块用于根据所述第一训练数据集、所述第一交叉验证数据集、所述第二训练数据集、所述第二交叉验证数据集、所述第三训练数据集和所述第三交叉验证数据集对目标神经网络进行训练,以获取预测模型;预测模块,所述预测模块用于采用所述预测模型对待填充数据集进行预测,以获取目标检测数据集。
[0009]一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述的用于能源大数据的跨时空双向数据缺失值填充方法。
[0010]一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的用于能源大数据的跨时空双向数据缺失值填充方法。
[0011]本专利技术的有益效果:
[0012]本专利技术能够对数据集的缺失值进行准确地填充,确保了数据分析和挖掘工作的正常进行。
附图说明
[0013]图1为本专利技术实施例的用于能源大数据的跨时空双向数据缺失值填充方法的流程图;
[0014]图2为本专利技术实施例的用于能源大数据的跨时空双向数据缺失值填充装置的方框示意图。
具体实施方式
[0015]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0016]图1是根据本专利技术实施例的车灯调节方法的流程图。
[0017]要在具有含缺失值的数据集上进行进一步的分析和挖掘前,必须先对数据集中的缺失值进行填充,否则将存在缺失值的数据输入机器学习模型和深度学习模型进行训练会造成模型无法正常工作,从而使进一步的分析和挖掘工作无法进行。为此,本专利技术提出了一种能源大数据的跨时空双向数据缺失值填充方法,既能够从时间和空间两个维度方向对于缺失值进行预测和填充,又能够尽量确保预测的缺失值符合真实情况,使后续数据分析和挖掘过程中机器学习和深度学习模型能够正常工作,并且不因为缺失值的存在而大幅影响机器学习和深度学习模型的预测准确性。
[0018]具体而言,如图1所示,本专利技术实施例的用于能源大数据的跨时空双向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于能源大数据的跨时空双向数据缺失值填充方法,其特征在于,包括以下步骤:在待训练目标数据表格中筛选出含缺失值的行作为第一数据表,并筛选出数据齐整的行作为第二数据表;根据所述第二数据表计算各特征的平均值和中值;分别采用0值、所述平均值和所述中值对所述第一数据表中各特征对应列的缺失值进行填充,以形成第三数据表、第四数据表和第五数据表;分别将所述第三数据表、所述第四数据表和所述第五数据表插入所述第二数据表中,以形成第六数据表、第七数据表和第八数据表;将所述第六数据表按照50%比例以时间为作为键值拆分为第一训练数据集和第一交叉验证数据集,并将所述第七数据表按照50%比例以时间为作为键值拆分为第二训练数据集和第二交叉验证数据集,以及将所述第八数据表按照50%比例以时间为作为键值拆分为第三训练数据集和第三交叉验证数据集;根据所述第一训练数据集、所述第一交叉验证数据集、所述第二训练数据集、所述第二交叉验证数据集、所述第三训练数据集和所述第三交叉验证数据集对目标神经网络进行训练,以获取预测模型;采用所述预测模型对待填充数据集进行预测,以获取目标检测数据集。2.根据权利要求1所述的用于能源大数据的跨时空双向数据缺失值填充方法,其特征在于,所述根据所述第一训练数据集、所述第一交叉验证数据集、所述第二训练数据集、所述第二交叉验证数据集、所述第三训练数据集和所述第三交叉验证数据集对目标神经网络进行训练,以获取预测模型,包括:根据所述第一训练数据集对所述目标神经网络进行训练,以获取第一目标模型,并分别采用所述第二交叉验证数据集和所述第三交叉验证数据集进行验证,以获取所述第一目标模型的第一MAE指标和第二MAE指标;根据所述第二训练数据集对所述目标神经网络进行训练,以获取第二目标模型,并采用所述第一交叉验证数据集和所述第三交叉验证数据集进行验证,以获取所述第二目标模型的第三MAE指标和第四MAE指标;根据所述第三训练数据集对所述目标神经网络进行训练,以获取第三目标模型,并采用所述第一交叉验证数据集和所述第二交叉验证数据集进行验证,以获取所述第三目标模型的第五MAE指标和第六MAE指标;分别计算所述第一MAE指标和所述第二MAE指标的第一平均值、所述第三MAE指标和所述第四MAE指标的第二平均值以及所述第五MAE指标和所述第六MAE指标的第三平均值;比较所述第一平均值、所述第二平均值和所述第三平均值的大小,并将最大的平均值对应的目标模型作为所述预测模型。3.根据权利要求2所述的用于能源大...

【专利技术属性】
技术研发人员:朱祺杨鹏林伟滨刘高维王盛郑理顾悦黄媛玉季珉杰郑益尹璇黄世龙项心言
申请(专利权)人:中国电力工程顾问集团华东电力设计院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1