面向流程型工业生产数据流的评测数据集构建方法及系统技术方案

技术编号:35043244 阅读:47 留言:0更新日期:2022-09-24 23:23
本发明专利技术涉及面向流程型工业生产数据流的评测数据集构建方法及系统,方法包括:S1、选择时间序列列表和L0;S2、采用距离相似度筛选策略,获取L0中因变量y与L

【技术实现步骤摘要】
面向流程型工业生产数据流的评测数据集构建方法及系统


[0001]本专利技术涉及流程型工业生产
,尤其涉及一种面向流程型工业生产数据流的评测数据集构建方法及系统。

技术介绍

[0002]对流程型工业生产场景下的机器学习建模项目来说,模型的有效性评测应该贯穿模型训练、模型更新及线上运行的始终,而对数学模型有效性的评测是否合理是建立在正确的评测方式与有效的评测数据集的基础上,也就是说,要实现模型全生命周期的效果评测,除了要有一个正确的评测方法,还应该有一个合理的评测数据集构建方法,以保证模型测试所用的数据是充分的和正确的。
[0003]现有评测数据集的构建主要有留出法、交叉验证法、自助法。但是,在流程型的工业生产场景下,现有方法所建立的评测数据集因为不具备时间序列的趋势及周期特性,不能很好的反映模型使用时刻的真实数据分布情况,模型在这样的数据集上并不能正确反映其有效性与泛化能力,对模型的测试会因为评测数据集的无效导致失真。

技术实现思路

[0004](一)要解决的技术问题鉴于现有技术的上述缺点、不足,本专利技术提供一种面向流程型工业生产数据流的评测数据集构建方法及系统,其解决了现有的评测数据集不具备时间序列的趋势及周期性的特点,待评测模型在这样的评测数据集中评测时并不能正确的反映其有效性和泛化能力的技术问题。
[0005](二)技术方案为了达到上述目的,本专利技术采用的主要技术方案包括:本专利技术实施例提供一种面向流程型工业生产数据流的评测数据集构建方法,包括:S1、针对生产数据流的时序数据,在时间轴上选择时间序列列表[L1, L2,L
i

ꢀ…
,L
N
]和指定序列L0,L0所对应的时间长度与待评测的模型的更新周期T0一致,且指定序列L0包括[t

T0,t ]时间段内生产数据流的元素数据,t为当前时间戳;S2、采用距离相似度筛选策略,获取L0中因变量y与L
i
中因变量y的距离相似度,并获得相似度列表;基于相似度列表和预设构建方式,在生产数据流的时序数据中构建第一趋势数据集D1;S3、针对生产数据流的历史数据,选择指定长度的序列X,采用自相关系数处理方式,获取序列X的周期T3,基于所述T3,生成预设长度k2的时间戳列表,根据时间戳列表中的元素和预设构建方式,在生产数据流的时序数据中构建第二趋势数据集D2;S4、采用时间序列列表[L1, L2,L
i

ꢀ…
,L
N
]和训练的待评测的模型,获取误差序列,基于误差序列和预设构建方式,在生产数据流的时序数据中构建第三趋势数据集D3;
S5、对D1、D2和D3进行抽样处理,获得用于对待评测的模型进行评测的评测数据集。
[0006]优选地,所述指定序列L0包括:z
01
,z
02
,...z
0w
...z
0n
;z
0w
为指定序列L0中按照时间顺序排列的第w个元素数据;所述时间序列L
i
包括:预先设定的第一时间间隔T1内的当前时间戳t之前的生产数据流的时序数据中的按照时间顺序排列的m个元素数据;其中,L
i
=[z
i1
,z
i2
,...z
ij
... z
im
];z
ij
为时间序列L
i
中按照时间顺序排列的第j个元素数据;其中,,所述F为预先设定值;每一元素数据包括:该元素数据所对应的时间戳、预先设定的待评测的模型所对应的自变量与因变量y。
[0007]优选地,所述S2具体包括:S21、采用距离相似度筛选策略,基于指定序列L0和时间序列列表[L1, L2,L
i

ꢀ…
,L
N
],分别获取指定序列L0和时间序列列表[L1, L2,L
i

ꢀ…
,L
N
]中每一个时间序列之间的距离相似度;S22、基于指定序列L0和时间序列列表[L1, L2,L
i

ꢀ…
,L
N
]中每一个时间序列之间的距离相似度,获得相似度列表;所述相似度列表包括:时间序列列表[L1, L2,L
i

ꢀ…
,L
N
]中K1个最大的距离相似度分别所对应的时间序列;其中,K1为预先设定的值,且0≤K1≤N/10;S23、基于所述相似度列表和预设构建方式,获取历史生产运行时序数据中的第一趋势数据集D1。
[0008]优选地,所述S21具体包括:S211、针对指定序列L0和时间序列L
i
,获取指定序列L0和时间序列L
i
相应的距离矩阵D
(L0,Li)
;其中,;其中,;为指定序列L0中按照时间顺序排列的第w个元素数据中的因变量y;为时间序列L
i
中按照时间顺序排列的第j个元素数据中的因变量y;S212、基于所述距离矩阵D
(L0,Li)
,采用递推公式(1),递推出该距离矩阵D
(L0,Li)
中元素d
11
到元素d
mn
之间的最小距离L
min
(m,n),并将该最小距离L
min
(m,n)作为指定序列L0和时间
序列L
i
之间的距离相似度;所述公式(1)为:;其中,L
min
(w,j)为距离矩阵中元素d
11
到距离矩阵中任一元素d
wj
的最小距离;其中,;;。
[0009]优选地,所述S23具体包括:S231、基于所述相似度列表,获取第一时间戳集合;所述第一时间戳集合包括:所述相似度列表中每一时间序列中的最后一个元素数据所对应的时间戳;S232、以第一时间戳集合中每一个时间戳为起点,分别向后获取周期T0内的生产运行时序数据中的元素数据并取并集,获取第一趋势数据集D1。
[0010]优选的,S3具体包括:S31、基于指定长度的序列X和p个预先设定的平移时间片段,获取指定长度的序列X在任一预先设定的平移时间片段所对应的两个子数据集;所述指定长度的序列X包括:第二时间间隔T2内历史生产运行时序数据中的按照时间顺序排列的h个元素数据;其中,第二时间间隔T2内大于等于15天;X=[z1,z2,...z
r
...,z
h
];z
r
为第二时间间隔T2内历史生产运行时序数据中的按照时间顺序排列的第r个元素数据;所述p个预先设定的平移时间片段依次包括:t1、t2、...t
g
...t
p
;其中,0≤p≤30;其中,t
g
为p个预先设定的平移时间片段中的第g个预先设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向流程型工业生产数据流的评测数据集构建方法,其特征在于,包括:S1、针对生产数据流的时序数据,在时间轴上选择时间序列列表[L1, L2,L
i

ꢀ…
,L
N
]和指定序列L0,L0所对应的时间长度与待评测的模型的更新周期T0一致,且指定序列L0包括[t

T0,t ]时间段内生产数据流的元素数据,t为当前时间戳;S2、采用距离相似度筛选策略,获取L0中因变量y与L
i
中因变量y的距离相似度,并获得相似度列表;基于相似度列表和预设构建方式,在生产数据流的时序数据中构建第一趋势数据集D1;S3、针对生产数据流的历史数据,选择指定长度的序列X,采用自相关系数处理方式,获取序列X的周期T3,基于所述T3,生成预设长度k2的时间戳列表,根据时间戳列表中的元素和预设构建方式,在生产数据流的时序数据中构建第二趋势数据集D2;S4、采用时间序列列表[L1, L2,L
i

ꢀ…
,L
N
]和训练的待评测的模型,获取误差序列,基于误差序列和预设构建方式,在生产数据流的时序数据中构建第三趋势数据集D3;S5、对D1、D2和D3进行抽样处理,获得用于对待评测的模型进行评测的评测数据集。2.根据权利要求1所述的方法,其特征在于,所述指定序列L0包括:z
01
,z
02
,...z
0w
...z
0n
;z
0w
为指定序列L0中按照时间顺序排列的第w个元素数据;所述时间序列L
i
包括:预先设定的第一时间间隔T1内的当前时间戳t之前的生产数据流的时序数据中的按照时间顺序排列的m个元素数据;其中,L
i
=[z
i1
,z
i2
,...z
ij
... z
im
];z
ij
为时间序列L
i
中按照时间顺序排列的第j个元素数据;其中,,所述F为预先设定值;每一元素数据包括:该元素数据所对应的时间戳、预先设定的待评测的模型所对应的自变量与因变量y。3.根据权利要求2所述的方法,其特征在于,所述S2具体包括:S21、采用距离相似度筛选策略,基于指定序列L0和时间序列列表[L1, L2,L
i

ꢀ…
,L
N
],分别获取指定序列L0和时间序列列表[L1, L2,L
i

ꢀ…
,L
N
]中每一个时间序列之间的距离相似度;S22、基于指定序列L0和时间序列列表[L1, L2,L
i

ꢀ…
,L
N
]中每一个时间序列之间的距离相似度,获得相似度列表;所述相似度列表包括:时间序列列表[L1, L2,L
i

ꢀ…
,L
N
]中K1个最大的距离相似度分别所对应的时间序列;其中,K1为预先设定的值,且0≤K1≤N/10;S23、基于所述相似度列表和预设构建方式,获取历史生产运行时序数据中的第一趋势数据集D1。4.根据权利要求3所述的方法,其特征在于,所述S21具体包括:S211、针对指定序列L0和时间序列L
i
,获取指定序列L0和时间序列L
i
相应的距离矩阵D
(L0,Li)
;其中,
;其中,;为指定序列L0中按照时间顺序排列的第w个元素数据中的因变量y;为时间序列L
i
中按照时间顺序排列的第j个元素数据中的因变量y;S212、基于所述距离矩阵D
(L0,Li)
,采用递推公式(1),递推出该距离矩阵D
(L0,Li)
中元素d
11
到元素d
mn
之间的最小距离L
min
(m,n),并将该最小距离L
min
(m,n)作为指定序列L0和时间序列L
i
之间的距离相似度;所述公式(1)为:;其中,L
min
(w,j)为距离矩阵中元素d
11
到距离矩阵中任一元素d
wj
的最小距离;其中,;;。5.根据权利要求4所述的方法,其特征在于,所述S23具体包括:S231、基于所述相似度列表,获取第一时间戳集合;所述第一时间戳集合包括:所述相似度列表中每一时间序列中的最后一个元素数据所对应的时间戳;S232、以第一时间戳集合中每一个时间戳为起点,分别向后获取周期T0内的生产运行时序数据中的元素数据并取并集,获取第一趋势数据集D1。6.根据权利要求5所述的方法,其特征在于,S3具体包括:S31、基于指定长度的序列X和p个预先设定的平移时间片段,获取指定长度的序列...

【专利技术属性】
技术研发人员:南玉泽王栋党海峰夏建涛
申请(专利权)人:北京全应科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1