时间序列数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34455402 阅读:15 留言:0更新日期:2022-08-06 17:01
本公开提供一种时间序列数据处理方法,包括:对包括多个时间序列数据样本的观测样本集进行样本筛选,以至少获得清洁样本集,时间序列数据样本包括数据本身及数据标签;以及,对清洁样本集进行过采样,以获取用于模型训练的平衡样本集。本公开还提供一种时间序列数据分类方法、时间序列数据处理装置、时间序列数据分类装置、电子设备、可读存储介质及计算机程序产品。序产品。序产品。

【技术实现步骤摘要】
时间序列数据处理方法、装置、电子设备及存储介质


[0001]本公开涉及数据处理/分类
,本公开尤其涉及一种时间序列数据处理方 法、时间序列数据分类方法、时间序列数据处理装置、时间序列数据分类装置、电子 设备、可读存储介质及计算机程序产品。

技术介绍

[0002]时间序列数据是对于特定的设备(例如空调等电气设备)、系统(例如网络/服务 器系统等)等的某一指标得到的与时间顺序相关联的有序数据。
[0003]通过对时间序列数据的变化进行分析,可以对设备、系统等的运行状态或者是否 出现异常状态等进行检测、预测、分类等,时间序列数据是被广泛使用的关键性数据。
[0004]原始采集的时间序列数据中的每个数据一般需要工程师进行手动标记,以赋予每 个数据以噪声标签(noisy label)或者正确标签(Ground truth label),从而基于标记 后的时间序列数据对各种所需的信息检测模型、信息预测模型、信息分类模型等 进行训练。
[0005]现有技术中也存在基于计算机程序的时间序列的标记方法/装置(例如中国专 利CN109739904B,其提出了一种具有较高准确性和可靠性的时间序列的标记方 法/装置)对时间序列数据进行标记。
[0006]然而,无论是手动标记的时间序列数据还是基于计算机程序标记的时间序列数 据,仍然存在相当数量的时间序列数据没有被准确标注,标注分布甚至是高度不平衡 的,如果基于这种时间序列数据对所需的信息检测模型、信息预测模型、信息分类模 型等进行训练,最终这些被训练模型输出的所需信息的客观性、准确性等难以得到保 证,难以获得设备、系统等的真实的运行状态信息、真实的异常状态信息。

技术实现思路

[0007]为了解决上述技术问题中的至少一个,本公开提供了一种时间序列数据处理方 法、时间序列数据分类方法、时间序列数据处理装置、时间序列数据分类装置、电子 设备、可读存储介质及计算机程序产品。
[0008]根据本公开的一个方面,提供一种时间序列数据处理方法,包括:
[0009]对包括多个时间序列数据样本的观测样本集进行样本筛选,以至少获得清洁 样本集,所述时间序列数据样本包括数据本身及数据标签;
[0010]对所述清洁样本集进行过采样,以获取用于模型训练的平衡样本集。
[0011]根据本公开的至少一个实施方式的时间序列数据处理方法,还包括:
[0012]基于第一目标函数,获取所述清洁样本集,其中,所述第一目标函数基于样本损 失函数构建。
[0013]根据本公开的至少一个实施方式的时间序列数据处理方法,基于第一目标函数, 获取所述清洁样本集,包括:
[0014]使用小损失标准(small

loss criterion)对所述时间序列数据样本进行筛选。
[0015]根据本公开的至少一个实施方式的时间序列数据处理方法,所述小损失标准包括选择指标,所述选择指标为二分类选择指标。
[0016]根据本公开的至少一个实施方式的时间序列数据处理方法,所述选择指标通过以下步骤获得:
[0017]获取所述观测样本集中每个时间序列数据样本的时间集成损失(temporalensembleloss);
[0018]基于所述观测样本集中每个时间序列数据样本的时间集成损失,获取热身阶段(warmupstage)的平均集成损失;
[0019]基于所述热身阶段的平均集成损失、预定的总训练轮次及热身阶段的训练轮次,构建所述选择指标。
[0020]根据本公开的至少一个实施方式的时间序列数据处理方法,所述样本损失函数为交叉熵损失函数,以实现标签平滑。
[0021]根据本公开的至少一个实施方式的时间序列数据处理方法,所述交叉熵损失函数的标签平滑强度可控。
[0022]根据本公开的至少一个实施方式的时间序列数据处理方法,所述平衡样本集基于所述清洁样本集和对所述清洁样本集进行过采样获得的样本而获得。
[0023]根据本公开的至少一个实施方式的时间序列数据处理方法,对所述清洁样本集进行过采样,包括:
[0024]对所述清洁样本集中的类别k的清洁样本进行过采样时,以所述类别k作为正类,所述类别k之外的类作为负类,获取所述正类的第一协方差矩阵和所述负类的第二协方差矩阵;
[0025]对所述第一协方差矩阵进行特征分解,以获得特征谱;
[0026]对所述特征谱进行区域划分,以获取正则化特征谱;
[0027]基于所述正则化特征谱及所述正类的均值向量获取合成样本以完成所述过采样。
[0028]根据本公开的至少一个实施方式的时间序列数据处理方法,基于第二目标函数,获取所述观测样本集中的各个时间序列数据样本的用于模型训练的噪声容忍时间序列表示,其中,所述第二目标函数至少基于所述第一目标函数构建。
[0029]根据本公开的至少一个实施方式的时间序列数据处理方法,还包括:
[0030]对所述观测样本集中的各个时间序列数据样本进行基于重建损失函数的重建,所述第二目标函数基于所述第一目标函数及所述重建损失函数构建。
[0031]根据本公开的至少一个实施方式的时间序列数据处理方法,以保留时间序列信息的方式对所述观测样本集中的时间序列数据样本进行所述重建。
[0032]根据本公开的至少一个实施方式的时间序列数据处理方法,所述第二目标函数基于所述第一目标函数与所述重建损失函数的线性组合构建。
[0033]根据本公开的另一个方面,提供一种时间序列数据分类方法,包括:
[0034]将时间序列数据样本映射至多维表示;
[0035]将多维表示的所述时间序列数据样本映射至K维输出以完成对所述时间序列数据样本的分类,其中,K为类别的总量。
[0036]根据本公开的至少一个实施方式的时间序列数据分类方法,通过时间序列数 据分类装置的数据特征提取模块执行所述将时间序列数据样本映射至多维表示, 通过时间序列数据分类装置的分类器模块执行所述将多维表示的所述时间序列 数据样本映射至K维输出。
[0037]根据本公开的至少一个实施方式的时间序列数据分类方法,所述时间序列数 据分类装置为经过平衡样本集训练之后的时间序列数据分类装置;其中,所述平 衡样本集根据本公开的任一个实施方式的时间序列数据处理方法获得。
[0038]根据本公开的至少一个实施方式的时间序列数据分类方法,所述时间序列数 据分类装置为经过平衡样本集和噪声容忍时间序列表示训练之后的时间序列数据 分类装置;其中,所述平衡样本集根据本公开的任一个实施方式的时间序列数据 处理方法获得,所述噪声容忍时间序列表示根据本公开的任一个实施方式的时间序 列数据处理方法获得。
[0039]根据本公开的至少一个实施方式的时间序列数据分类方法,所述时间序列数 据样本为卫星影像时间序列数据样本、电气设备运行状态时间序列数据样本或网 络信息触发时间序列数据样本。
[0040]根据本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时间序列数据处理方法,其特征在于,包括:对包括多个时间序列数据样本的观测样本集进行样本筛选,以至少获得清洁样本集,所述时间序列数据样本包括数据本身及数据标签;以及对所述清洁样本集进行过采样,以获取用于模型训练的平衡样本集。2.根据权利要求1所述的时间序列数据处理方法,其特征在于,还包括:基于第一目标函数,获取所述清洁样本集,其中,所述第一目标函数基于样本损失函数构建。3.根据权利要求1所述的时间序列数据处理方法,其特征在于,基于第一目标函数,获取所述清洁样本集,包括:使用小损失标准(small

loss criterion)对所述时间序列数据样本进行筛选。4.根据权利要求3所述的时间序列数据处理方法,其特征在于,所述小损失标准包括选择指标,所述选择指标为二分类选择指标;优选地,所述选择指标通过以下步骤获得:获取所述观测样本集中每个时间序列数据样本的时间集成损失(temporal ensemble loss);基于所述观测样本集中每个时间序列数据样本的时间集成损失,获取热身阶段(warmup stage)的平均集成损失;以及基于所述热身阶段的平均集成损失、预定的总训练轮次及热身阶段的训练轮次,构建所述选择指标;优选地,所述样本损失函数为交叉熵损失函数,以实现标签平滑;优选地,所述交叉熵损失函数的标签平滑强度可控;优选地,所述平衡样本集基于所述清洁样本集和对所述清洁样本集进行过采样获得的样本而获得;优选地,对所述清洁样本集进行过采样,包括:对所述清洁样本集中的类别k的清洁样本进行过采样时,以所述类别k作为正类,所述类别k之外的类作为负类,获取所述正类的第一协方差矩阵和所述负类的第二协方差矩阵;对所述第一协方差矩阵进行特征分解,以获得特征谱;对所述特征谱进行区域划分,以获取正则化特征谱;以及基于所述正则化特征谱及所述正类的均值向量获取合成样本以完成所述过采样;优选地,基于第二目标函数,获取所述观测样本集中的各个时间序列数据样本的用于模型训练的噪声容忍时间序列表示,其中,所述第二目标函数至少基于所述第一目标函数构建;优选地,还包括:对所述观测样本集中的各个时间序列数据样本进行基于重建损失函数的重建,所述第二目标函数基于所述第一目标函数及所述重建损失函数构建;优选地,以保留时间序列信息的方式对所述观测样本集中的时间序列数据样本进行所述重建;优选地,所述第二目标函数基于所述第一目标函数与所述重建损失函数的线性组合构建。
5.一种时间序列数据分类方法,其特征在于,包括:将时间序列数据样本映射至多维表示;以及将多维表示的所述时间序列数据样本映射至K维输出以完成对所述时间序列数据样本的分类,其中,K为类别的总量;优选地,通过时间序列数据分类装置的数据特征提取模块执行所述将时间序列数据样本映射至多维表示,通过时间序列数据分类装置的分类器模块执行所述将多维表示的所述时间序列数据样本映射至...

【专利技术属性】
技术研发人员:陈杰周植潘昊李宇峰叶杰平
申请(专利权)人:贝塔通科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1