一种机器学习模型筛选方法技术

技术编号:38155205 阅读:11 留言:0更新日期:2023-07-13 09:23
本发明专利技术涉及一种机器学习模型筛选方法,包括:获取待评测模型集合以及热电生产过程中预设时间段内的原始数据集,该待评测模型集合包括至少一个待评测机器学习模型;针对所述原始数据集进行预处理,获取最终数据集;将最终数据集中的最终的特征变量输入待评测模型集合中的任一待评测机器学习模型中,得到相应的目标变量预测值;基于最终的目标变量实际值和目标变量预测值,获取所述待测机器学习模型的误差评分和相似度评分;基于所述待测机器学习模型的误差评分和相似度评分,获取该待测机器学习模型的最终评分;基于每一待测机器学习模型的最终评分,筛选出最终的机器学习模型。筛选出最终的机器学习模型。筛选出最终的机器学习模型。

【技术实现步骤摘要】
一种机器学习模型筛选方法


[0001]本专利技术涉及智能发电
,尤其涉及一种机器学习模型筛选方法。

技术介绍

[0002]热电生产过程控制中PID控制是常用的自动调节方式,但是PID控制容易导致系统出现“超调”、“震荡”等问题。对于热电生产过程中的设备控制,存在一种比传统的PID控制更快更精准的机器学习模型,这种模型是基于输入输出变量的变化量之间的对应关系建立的模型,主要用于当设备需要从一种状态调整至另一种目标状态时,模型能够根据输入的目标状态与当前状态的差距,直接输出在当前基础上需要进行的操作量。这种模型本质上是回归模型,但是使用常规的回归类模型的评价指标R2,MAE和MSE等对这种模型的质量无法进行准确的评价,评价结果经常出现与模型实际效果相悖的现象,这主要是由于工业生产过程数据存在延时、波动等问题,很多情况下机组运行过程中的测量数据不能真实地反映系统输入输出的关系,使得基于原始数据作差得到的变化量不是真实的变化量,再加上变化量数据量级一般很小,在0附近数据居多,进一步降低了变化量数据的信噪比。
[0003]在热电生产场景下,由于生产工况的不稳定,需要对机器学习模型进行持续有效的监测以实现机器学习模型的及时更新与选择,通过人为观察机器学习模型的拟合优度等常规评价指标决定机器学习模型是否可用,存在很大的主观性,不仅费时费力,而且对机器学习模型质量的评价不够直观和全面。因此不能筛选出最适合热电生产的机器学习模型。

技术实现思路

[0004](一)要解决的技术问题
[0005]鉴于现有技术的上述缺点、不足,本专利技术提供一种机器学习模型筛选方法,其解决了现有技术中依赖人为观察导致的效率低下以及现有评价指标无法对模型进行有效的评估以至于不能筛选出最适合热电生产的机器学习模型的技术问题。
[0006](二)技术方案
[0007]为了达到上述目的,本专利技术采用的主要技术方案包括:
[0008]本专利技术实施例提供一种机器学习模型筛选方法,所述机器学习模型是面向热电生产过程控制的,所述方法包括:
[0009]S1、获取待评测模型集合以及热电生产过程中预设时间段内的原始数据集,其中,该待评测模型集合包括至少一个待评测机器学习模型;
[0010]所述原始数据集包括在所述预设时间段内热电生产过程中以预先设定频率所采集的多条原始数据;其中,每条原始数据均包括与该条原始数据对应的时间戳、原始特征变量和原始目标变量;
[0011]S2、针对所述原始数据集进行预处理,获取最终数据集;所述最终数据集包括多对最终的特征变量和最终的目标变量实际值;
[0012]S3、将最终数据集中的最终的特征变量输入待评测模型集合中的任一待评测机器
学习模型中,得到相应的目标变量预测值;
[0013]S4、基于最终的目标变量实际值和目标变量预测值,获取所述待测机器学习模型的误差评分和相似度评分;
[0014]S5、基于所述待测机器学习模型的误差评分和相似度评分,获取该待测机器学习模型的最终评分;
[0015]S6、基于每一待测机器学习模型的最终评分,筛选出最终的机器学习模型。
[0016]优选地,所述S2具体包括:
[0017]S21、针对所述原始数据集,筛选出平稳段数据集;
[0018]其中,任意两个平稳段数据集之间没有交集,且任一所述平稳段数据集L
i
满足L
i
=[l
1i
,l
2i
,...,l
ni
];
[0019]L
i
为在所述原始数据集所筛选出的第i个平稳段数据集;
[0020]l
ni
为第i个平稳段数据集中的第n条原始数据;
[0021](l
mi

x

l
1i

x
)/
l1i

x
≤3%,m≤n;;
[0022](l
mi

y

l
1i

y
)/
l1i

y
≤3%,m≤n;
[0023]l
mi

x
为第i个平稳段数据集中的第m条原始数据中的原始特征变量;
[0024]l
mi

y
为第i个平稳段数据集中的第m条原始数据中的原始目标变量;
[0025]其中,所述平稳段数据集L
i
所对应的第一时间满足预设时间范围;所述第一时间为L
mi
所对应的时间戳的时间减去L
1i
所对应的时间戳的时间;
[0026]S22、针对所有平稳段数据集,获取每一平稳段数据集中原始特征变量的平均值和原始目标变量的平均值以及该平稳段数据集的起始时间和结束时间;
[0027]S23、基于每一平稳段数据集中原始特征变量的平均值和原始目标变量的平均值以及该平稳段数据集的起始时间和结束时间,获取第一数据集;
[0028]所述第一数据集包括分别与每一平稳段数据集一一对应的信息数据;
[0029]所述信息数据包括:与该条信息数据对应的平稳段数据集中原始特征变量的平均值和原始目标变量的平均值以及该平稳段数据集的起始时间、平稳段数据集的结束时间;
[0030]S24、对所述第一数据集中的所有信息数据按照信息数据中的起始时间由小到大的顺序进行排序,得到第二数据集;
[0031]S25、采用预先设定处理策略对所述第二数据集进行处理,得到最终数据集。
[0032]优选地,所述S25具体包括:
[0033]S251、针对基于所述第二数据集的任一信息数据中的原始特征变量的平均值,获取所述第二数据集中该信息数据之后的每一信息数据与该信息数据之间的相对信息,并将该第二数据集中的所有相对信息组成第三数据集;
[0034]其中,第二数据集中该信息数据之后的任一信息数据与该信息数据之间的相对信息包括:第一差值、第二差值、第一结束时间、第一起始时间、第二结束时间、第一时间差;
[0035]所述第一差值为第二数据集中该信息数据之后的任一信息数据中的原始特征变量的平均值减去该信息数据中的原始特征变量的平均值所得到的差值;
[0036]所述第二差值为第二数据集中该信息数据之后的任一信息数据中的原始目标变量的平均值减去该信息数据中的原始目标变量的平均值所得到的差值;
[0037]所述第一结束时间为该信息数据所对应的平稳段数据集的结束时间;
[0038]所述第一起始时间为第二数据集中该信息数据之后的任一信息数据所对应的平稳段数据集的起始时间;
[0039]所述第二结束时间为第二数据集中该信息数据之后的任一信息数据所对应的平稳段数据集的结束时间;
[0040]所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器学习模型筛选方法,所述机器学习模型是面向热电生产过程控制的,其特征在于,所述方法包括:S1、获取待评测模型集合以及热电生产过程中预设时间段内的原始数据集,其中,该待评测模型集合包括至少一个待评测机器学习模型;所述原始数据集包括在所述预设时间段内热电生产过程中以预先设定频率所采集的多条原始数据;其中,每条原始数据均包括与该条原始数据对应的时间戳、原始特征变量和原始目标变量;S2、针对所述原始数据集进行预处理,获取最终数据集;所述最终数据集包括多对最终的特征变量和最终的目标变量实际值;S3、将最终数据集中的最终的特征变量输入待评测模型集合中的任一待评测机器学习模型中,得到相应的目标变量预测值;S4、基于最终的目标变量实际值和目标变量预测值,获取所述待测机器学习模型的误差评分和相似度评分;S5、基于所述待测机器学习模型的误差评分和相似度评分,获取该待测机器学习模型的最终评分;S6、基于每一待测机器学习模型的最终评分,筛选出最终的机器学习模型。2.根据权利要求1所述的机器学习模型筛选方法,其特征在于,所述S2具体包括:S21、针对所述原始数据集,筛选出平稳段数据集;其中,任意两个平稳段数据集之间没有交集,且任一所述平稳段数据集L
i
满足L
i
=[l
1i
,l
2i
,...,l
ni
];L
i
为在所述原始数据集所筛选出的第i个平稳段数据集;l
ni
为第i个平稳段数据集中的第n条原始数据;(l
mi

x

l
1i

x
)/l
li

x
≤3%,m≤n;;(l
mi

y

l
1i

y
)/l
1i

y
≤3%,m≤n;;l
mi

x
为第i个平稳段数据集中的第m条原始数据中的原始特征变量;l
mi

y
为第i个平稳段数据集中的第m条原始数据中的原始目标变量;其中,所述平稳段数据集L
i
所对应的第一时间满足预设时间范围;所述第一时间为L
mi
所对应的时间戳的时间减去L
1i
所对应的时间戳的时间;S22、针对所有平稳段数据集,获取每一平稳段数据集中原始特征变量的平均值和原始目标变量的平均值以及该平稳段数据集的起始时间和结束时间;S23、基于每一平稳段数据集中原始特征变量的平均值和原始目标变量的平均值以及该平稳段数据集的起始时间和结束时间,获取第一数据集;所述第一数据集包括分别与每一平稳段数据集一一对应的信息数据;所述信息数据包括:与该条信息数据对应的平稳段数据集中原始特征变量的平均值和原始目标变量的平均值以及该平稳段数据集的起始时间、平稳段数据集的结束时间;S24、对所述第一数据集中的所有信息数据按照信息数据中的起始时间由小到大的顺序进行排序,得到第二数据集;S25、采用预先设定处理策略对所述第二数据集进行处理,得到最终数据集。3.根据权利要求2所述的机器学习模型筛选方法,其特征在于,所述S25具体包括:
S251、针对基于所述第二数据集的任一信息数据中的原始特征变量的平均值,获取所述第二数据集中该信息数据之后的每一信息数据与该信息数据之间的相对信息,并将该第二数据集中的所有相对信息组成第三数据集;其中,第二数据集中该信息数据之后的任一信息数据与该信息数据之间的相对信息包括:第一差值、第二差值、第一结束时间、第一起始时间、第二结束时间、第一时间差;所述第一差值为第二数据集中该信息数据之后的任一信息数据中的原始特征变量的平均值减去该信息数据中的原始特征变量的平均值所得到的差值;所述第二差值为第二数据集中该信息数据之后的任一信息数据中的原始目标...

【专利技术属性】
技术研发人员:阳赛南玉泽王栋党海峰夏建涛
申请(专利权)人:北京全应科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1