时间特征的处理方法、处理装置制造方法及图纸

技术编号:32165403 阅读:13 留言:0更新日期:2022-02-08 15:19
本发明专利技术提供一种时间特征的处理方法、处理装置,所述方法包括:将训练数据集中的时间特征转化为十进制的数值型时间特征后,采用聚类算法对训练数据集进行聚类,并输出聚类结果;采用至少一种用于分类的机器学习算法对时间特征和聚类结果进行机器学习;采用交叉验证数据集验证机器学习算法输出结果的准确性,直到训练出符合要求的分类模型;将测试数据集中的时间特征转化为十进制的数值型时间特征后,输入分类模型,以使分类模型输出分类结果。本发明专利技术将时间特征数据转化成十进制的数值型数据后再进行学习,可以解决因其形式特殊而造成的问题,且从训练数据集和测试数据集双向对于时间特征进行学习,可以显著提高学习模型的准确程度。程度。程度。

【技术实现步骤摘要】
时间特征的处理方法、处理装置


[0001]本专利技术涉及数据处理
,具体涉及一种时间特征的处理方法、一种时间特征的处理装置。

技术介绍

[0002]目前,在工业领域,具有许多采用机器学习或者深度学习算法根据输入特征数据对相应的参数进行预测的场景,例如,在风光储发电站的场景中,最常采用并且研究最多的为采用机器学习或者深度学习算法根据输入特征数据对于电站的出力进行预测。
[0003]然而,在设计机器学习和深度学习算法时,许多场景的输入特征为时间特征,例如储能电站的输入特征大部分为气象特征,如风速、辐照度、气温、气压、湿度等,这些特征的值本身就具有较大的波动性并且相互之间存在耦合关系,在这种情况下,唯一绝对准确并且量化的特征为数据的采集时间,其能够反映其他各个特征和所需要的预测值随时间的变化情况。
[0004]然而,在数据类型中,时间特征是非常特殊的一种类型,虽然其中隐含的信息较多,但是时间特征中日期的构成形式为年、月、日,时间的构成方式为时、分、秒,都不是其他数值型数据采用的十进制方式。在这种情况下,如果直接将时间特征作为特征输入机器学习模型和深度学习模型进行训练,会造成模型无法判断其与其他采用十进制数值特征之间的差异,从而使模型训练失败或者大幅度降低模型的预测准确性。

技术实现思路

[0005]为解决上述技术问题,本专利技术的第一个目的在于提出一种时间特征的处理方法,将时间特征数据转化成十进制数值型数据后再进行学习,可以解决因其形式特殊而造成的问题,且采用机器学习模型的方式从训练数据集和测试数据集双向对于时间特征进行学习,可以挖掘时间特征在面向的各类预测场景中的隐含信息,进而可以提高根据时间特征使用机器学习或深度学习对参数进行预测时的准确程度。
[0006]本专利技术的第二个目的在于提出一种时间特征的处理装置。
[0007]本专利技术采用的技术方案如下:
[0008]本专利技术第一方面的实施例提出了一种时间特征的处理方法,包括以下步骤:获取数据集,所述数据集包括时间特征和与所述时间特征对应的参数预测值,所述时间特征包括日期和时刻;将所述数据集分为训练数据集、交叉验证数据集和测试数据集;将所述训练数据集中的时间特征转化为十进制数值型时间特征后,采用聚类算法对所述训练数据集进行聚类,并输出聚类结果;采用至少一种用于分类的机器学习算法对所述时间特征和所述聚类结果进行机器学习;采用所述交叉验证数据集验证所述机器学习算法输出结果的准确性,并根据所述准确性对所述机器学习算法的参数进行调整,直到机器学习算法训练出符合要求的分类模型;将所述测试数据集中的时间特征转化为十进制数值型时间特征后,输入所述分类模型,以使所述分类模型输出分类结果。
[0009]本专利技术上述提出的时间特征的处理方法还可以具有如下附加技术特征:
[0010]根据本专利技术的一个实施例,将所述数据集分为训练数据集、交叉验证数据集和测试数据集,具体包括:将所述数据集的60%作为训练数据集、20%作为交叉验证数据集、20%作为测试数据集。
[0011]根据本专利技术的一个实施例,所述聚类算法包括K均值聚类算法。
[0012]根据本专利技术的一个实施例,所述用于分类的机器学习算法包括三个。
[0013]根据本专利技术的一个实施例,所述用于分类的机器学习算法包括:支持向量机、GBDT(Gradient Boosting Decision Tree,梯度下降树)分类和逻辑回归。
[0014]本专利技术第二方面的实施例提出了一种时间特征的处理装置,包括:获取模块,所述获取模块用于获取数据集,并将所述数据集分为训练数据集、交叉验证数据集和测试数据集,其中,所述数据集包括时间特征和与所述时间特征对应的参数预测值,所述时间特征包括日期和时刻;转化模块,所述转化模块用于将所述训练数据集中的时间特征转化为十进制数值型时间特征后,采用聚类算法对所述训练数据集进行聚类,并输出聚类结果;机器学习模块,所述机器学习模块用于采用至少一种用于分类的机器学习算法对所述时间特征和所述聚类结果进行机器学习;训练模块,所述训练模块用于采用所述交叉验证数据集验证所述机器学习算法输出结果的准确性,并根据所述准确性对所述机器学习算法的参数进行调整,直到机器学习算法训练出符合要求的分类模型;处理模块,所述处理模块用于将所述测试数据集中的时间特征转化为十进制数值型时间特征后,输入所述分类模型,以使所述分类模型输出分类结果。
[0015]本专利技术上述提出的时间特征的处理装置还可以具有如下附加技术特征:
[0016]根据本专利技术的一个实施例,所述获取模块具体用于:将所述数据集的60%作为训练数据集、20%作为交叉验证数据集、20%作为测试数据集。
[0017]根据本专利技术的一个实施例,所述聚类算法包括K均值聚类算法。
[0018]根据本专利技术的一个实施例,所述用于分类的机器学习算法包括三个。
[0019]根据本专利技术的一个实施例,所述用于分类的机器学习算法包括:支持向量机、GBDT分类和逻辑回归。
[0020]本专利技术的有益效果:
[0021]本专利技术将时间特征数据转化成十进制数值型数据后再进行学习,可以解决因其形式特殊而造成的问题,且采用机器学习模型的方式从训练数据集和测试数据集双向对于时间特征进行学习,可以挖掘时间特征在面向的各类预测场景中的隐含信息,进而可以提高根据时间特征使用机器学习或深度学习对参数进行预测时的准确程度。
附图说明
[0022]图1是根据本专利技术一个实施例的时间特征的处理方法的流程图。
[0023]图2是根据本专利技术一个实施例的时间特征的处理方法的原理框图;
[0024]图3是根据本专利技术一个实施例的时间特征的处理装置的方框示意图。
具体实施方式
[0025]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]图1是根据本专利技术一个实施例的时间特征的处理方法的流程图。如图1所示,该方法包括以下步骤:
[0027]S1,获取数据集,数据集包括时间特征和与时间特征对应的参数预测值,时间特征包括日期和时刻。
[0028]举例而言,以某储能电站的出力数据表为例,数据集可以如下表1所示:
[0029]表1
[0030][0031][0032]可以理解的是,表1仅是示出数据集的部分数据,实际应用场景数据集的数据应包括大量的现场数据。表1中的出力即为参数预测值。
[0033]S2,将数据集分为训练数据集、交叉验证数据集和测试数据集。
[0034]在本专利技术的一个实施例中,将数据集的60%作为训练数据集、20%作为交叉验证数据集、20%作为测试数据集。
[0035]S3,将训练数据集中的时间特征转化为十进制数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时间特征的处理方法,其特征在于,包括以下步骤:获取数据集,所述数据集包括时间特征和与所述时间特征对应的参数预测值,所述时间特征包括日期和时刻;将所述数据集分为训练数据集、交叉验证数据集和测试数据集;将所述训练数据集中的时间特征转化为十进制数值型时间特征后,采用聚类算法对所述训练数据集进行聚类,并输出聚类结果;采用至少一种用于分类的机器学习算法对所述时间特征和所述聚类结果进行机器学习;采用所述交叉验证数据集验证所述机器学习算法输出结果的准确性,并根据所述准确性对所述机器学习算法的参数进行调整,直到机器学习算法训练出符合要求的分类模型;将所述测试数据集中的时间特征转化为十进制数值型时间特征后,输入所述分类模型,以使所述分类模型输出分类结果。2.根据权利要求1所述的时间特征的处理方法,其特征在于,将所述数据集分为训练数据集、交叉验证数据集和测试数据集,具体包括:将所述数据集的60%作为训练数据集、20%作为交叉验证数据集、20%作为测试数据集。3.根据权利要求1所述的时间特征的处理方法,其特征在于,所述聚类算法包括K均值聚类算法。4.根据权利要求1所述的时间特征的处理方法,其特征在于,所述用于分类的机器学习算法包括三个。5.根据权利要求4所述的时间特征的处理方法,其特征在于,所述用于分类的机器学习算法包括:支持向量机、GBDT分类和逻辑回归。6.一种时间特征的处理装置,其特征在于,包括:获取模块,所...

【专利技术属性】
技术研发人员:朱祺杨鹏
申请(专利权)人:中国电力工程顾问集团华东电力设计院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1