一种基于煤价影响因素的数据处理方法技术

技术编号:35653871 阅读:19 留言:0更新日期:2022-11-19 16:49
本发明专利技术提供了一种基于煤价影响因素的数据处理方法,该方法为首先收集影响煤价因素的数据集,对数据进行删除重复值和异常值,补充缺失值处理,然后利用主成分分析法对数据集进行降维,根据递归消除法筛选出重要性高的影响因素,最后将筛选出的数据导入神经网络算法中得到煤价预测结果。本发明专利技术利用数据处理手段将煤价影响因素在保留关键信息的同时简约化数据特征,在人工神经网络运用过程中可以降低运算时间和难度,使得预测模型的建立更为准确和快速,显著提高模型的精准度。显著提高模型的精准度。显著提高模型的精准度。

【技术实现步骤摘要】
一种基于煤价影响因素的数据处理方法


[0001]本专利技术属于煤炭价格预测领域,具体涉及一种基于煤价影响因素的数据处理方法。

技术介绍

[0002]我国是一个煤炭产量和消费大国,煤炭消费在国民经济发展过程中承担着压舱石的作用。煤炭价格的变化受到多种环境因素的影响,大体分为宏观因素、行业因素、国际市场因素以及微观因素,这些因素里面的每一个变量都会对煤炭最终的现货价产生影响。如果能对煤价进行有效精准预测,那些高度依赖煤炭的企业将会显著地降本增效,提高整个行业的竞争力。最开始研究人员只是依靠传统的时间序列的预测,但是这会带来极大的不确定性和较大的不适配性。为了很好的解决煤价预测的问题,研究人员已经开始尝试利用机器学习和人工神经网络学习去解决煤价预测问题。
[0003]当今影响煤价因素的种类繁多,我们可以将这些原始数据全部导入到神经网络算法中去处理得到预测模型,但是庞大的变量和低质量的数据会对预测模型产生影响,得到的结果与现实情况会有较大的偏差。因此现在需要一种对于煤炭影响因素的处理手段去提高数据的真实性和可靠性,最终能很好的契合所建立的模型。

技术实现思路

[0004]本专利技术的目的在于克服现有技术预测煤价时庞大的变量和低质量的数据会对预测模型产生影响,得到的结果与现实情况会有较大的偏差的缺陷。
[0005]为了实现上述目的,本专利技术提出了一种基于煤价影响因素的数据处理方法,该方法为首先收集影响煤价因素的数据集,对数据进行删除重复值和异常值,补充缺失值处理,然后利用主成分分析法对数据集进行降维,根据递归消除法筛选出重要性高的影响因素,最后将筛选出的数据导入神经网络算法中得到煤价预测结果。
[0006]作为上述方法的一种改进,所述方法具体包括:
[0007]步骤S1:收集影响煤价因素的数据;从网络数据源收集前若干年煤价影响因素数据,输出包含N类因素的数据集;
[0008]步骤S2:对数据集进行简单处理,包括删除重复值和异常值,补充缺失值;
[0009]步骤S3:对数据进行规范化处理;将同一因素的数值除以该因素所有数值的平均值;
[0010]步骤S4:利用主成分分析法对数据集进行降维;
[0011]步骤S5:筛选重要性高的特征;
[0012]步骤S6:将高影响因素导入神经网络算法中,计算煤价预测值。
[0013]作为上述方法的一种改进,所述步骤2具体包括:
[0014]步骤S2

1:对每类因素的数值进行处理,删除数值中的重复值;
[0015]步骤S2

2:利用格拉布斯法检测异常值;计算同一因素的数值的平均值标准差
s、偏离差,其中i是可疑值的排列序号,x
i
为一个因素第i个数值;确定检出水平α=0.05,查格拉布斯表获得临界值,比较计算值Gi和临界值,剔除异常值,保留其余值;
[0016]步骤S2

3:对于缺失值,利用K

Nearest Neighbor算法回归估计近似值;得到每类因素M个数值。
[0017]作为上述方法的一种改进,所述步骤4具体包括:
[0018]步骤S4

1:根据公式计算每个因素的数值得到协方差矩阵:
[0019][0020]其中,u
MN
为第N个因素的第M个数值计算得到的标准化值;
[0021]步骤S4

2:相关系数方程得到相关系数矩阵:
[0022][0023]步骤S4

3:计算相关系数矩阵的特征值及对应的特征向量;
[0024]求解特征方程|λ
i

C|=0,得到特征根λ
i
,并将特征根由大到小排序,λ1≥λ2≥

≥λ
p
≥0,然后求出特征值λ
i
对应的特征向量e
i
;i=1,2,

,p;要求,p;要求其中表示向量e
i
的第j个分向量,p为主成分数量p≤N;
[0025][0026][0027]将累计贡献率大于80%的定义为高贡献值数据,根据该定义选定为k组数据,k≤N。
[0028]作为上述方法的一种改进,所述步骤5具体包括:利用递归消除法中的DecisionTree将选取后的k组数据进行循环执行筛选特征,在每一次的循环中消去权重低的特征值,得到重要性高的特征,所得即为高影响因素。
[0029]本专利技术还提供一种基于煤价影响因素的数据处理系统,所述系统包括:
[0030]数据收集模块:用于收集煤价影响因素数据;
[0031]数据简单处理模块:用于对收集数据进行处理,删除重复值和异常值,补充缺失值;
[0032]数据规范化处理模块:用于将同一因素的数值除以该因素所有数值的平均值;
[0033]数据降维处理模块:用于利用主成分分析法对数据集进行降维;
[0034]筛选高重要性数据模块:用于筛选重要性高的特征;和
[0035]预测煤价模块:用于将高影响因素导入神经网络算法中,计算煤价预测值。
[0036]作为上述系统的一种改进,所述数据简单处理模块的处理过程为:
[0037]对每类因素的数值进行处理,删除数值中的重复值;
[0038]利用格拉布斯法检测异常值;计算同一因素的数值的平均值标准差s、偏离差,
其中i是可疑值的排列序号,x
i
为一个因素第i个数值;确定检出水平α=0.05,查格拉布斯表获得临界值,比较计算值Gi和临界值,剔除异常值,保留其余值;
[0039]对于缺失值,利用K

Nearest Neighbor算法回归估计近似值;得到每类因素M个数值。
[0040]作为上述系统的一种改进,所述数据降维处理模块的处理过程为:
[0041]根据公式计算每个因素的数值得到协方差矩阵:
[0042][0043]其中,u
MN
为第N个因素的第M个数值计算得到的标准化值;
[0044]相关系数方程得到相关系数矩阵:
[0045][0046]计算相关系数矩阵的特征值及对应的特征向量;
[0047]求解特征方程|λ
i

C|=0,得到特征根λ
i
,并将特征根由大到小排序,λ1≥λ2≥

≥λ
p
≥0,然后求出特征值λ
i
对应的特征向量e
i
;i=1,2,

,p;要求,p;要求其中表示向量e
i
的第j个分向量,p为主成分数量p≤N;
[0048][0049][0050]将累计贡献率大于80%的定义为高贡献值数据,根据该定义选定为k组数据,k≤N。
[0051]作为上述系统的一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于煤价影响因素的数据处理方法,该方法包括:首先收集影响煤价因素的数据集,对数据集进行预处理,然后利用主成分分析法对预处理后的数据集进行降维,根据递归消除法筛选出重要性高的影响因素,最后将筛选出的数据导入预先建立好的神经网络算法中得到煤价预测结果。2.根据权利要求1所述的基于煤价影响因素的数据处理方法,其特征在于,所述方法具体包括:步骤S1:收集影响煤价因素的数据;从网络数据源收集前若干年煤价影响因素数据,输出包含N类因素的数据集;步骤S2:对数据集进行预处理,包括删除重复值和异常值,补充缺失值;步骤S3:对数据进行规范化处理,将同一因素的数值除以该因素所有数值的平均值;步骤S4:利用主成分分析法对步骤S3生成的数据集进行降维;步骤S5:筛选重要性高的特征;步骤S6:将高影响因素导入神经网络算法中,计算煤价预测值。3.根据权利要求2所述的基于煤价影响因素的数据处理方法,其特征在于,所述步骤S2具体包括:步骤S2

1:对每类因素的数值进行处理,删除数值中的重复值;步骤S2

2:利用格拉布斯法检测异常值;计算同一因素的数值的平均值标准差s、偏离差,其中i是可疑值的排列序号,x
i
为一个因素第i个数值;确定检出水平α=0.05,查格拉布斯表获得临界值,比较计算值Gi和临界值,剔除异常值,保留其余值;步骤S2

3:对于缺失值,利用K

Nearest Neighbor算法回归估计近似值;得到每类因素M个数值。4.根据权利要求3所述的基于煤价影响因素的数据处理方法,其特征在于,所述步骤S4具体包括:步骤S4

1:根据公式计算每个因素的数值得到协方差矩阵:其中,u
MN
为第N个因素的第M个数值计算得到的标准化值;步骤S4

2:相关系数方程得到相关系数矩阵:步骤S4

3:计算相关系数矩阵的特征值及对应的特征向量;求解特征方程|λ
i

C|=0,得到特征根λ
i
,并将特征根由大到小排序,λ1≥λ2≥

≥λ
p
≥0,然后求出特征值λ
i
对应的特征向量e
i
;i=1,2,

,p;要求,p;要求其中表示向量e
i
的第j个分向量,p为主成分数量p≤N;
将累计贡献率大于80%的定义为高贡献值数据,根据该定义选定为k组数...

【专利技术属性】
技术研发人员:丛佳慧须钢刘治平柳顺王聪江龙胡松向军
申请(专利权)人:国家电投集团数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1