【技术实现步骤摘要】
时间序列数据处理方法、装置、电子设备及存储介质
[0001]本公开涉及数据处理/分类
,本公开尤其涉及一种时间序列数据处理方 法、时间序列数据分类方法、时间序列数据处理装置、时间序列数据分类装置、电子 设备、可读存储介质及计算机程序产品。
技术介绍
[0002]时间序列数据是对于特定的设备(例如空调等电气设备)、系统(例如网络/服务 器系统等)等的某一指标得到的与时间顺序相关联的有序数据。
[0003]通过对时间序列数据的变化进行分析,可以对设备、系统等的运行状态或者是否 出现异常状态等进行检测、预测、分类等,时间序列数据是被广泛使用的关键性数据。
[0004]原始采集的时间序列数据中的每个数据一般需要工程师进行手动标记,以赋予每 个数据以噪声标签(noisy label)或者正确标签(Ground truth label),从而基于标记 后的时间序列数据对各种所需的信息检测模型、信息预测模型、信息分类模型等 进行训练。
[0005]现有技术中也存在基于计算机程序的时间序列的标记方法/装置(例如中国专 利CN109739904B,其提出了一种具有较高准确性和可靠性的时间序列的标记方 法/装置)对时间序列数据进行标记。
[0006]然而,无论是手动标记的时间序列数据还是基于计算机程序标记的时间序列数 据,仍然存在相当数量的时间序列数据没有被准确标注,标注分布甚至是高度不平衡 的,如果基于这种时间序列数据对所需的信息检测模型、信息预测模型、信息分类模 型等进行训练,最终这些被训练模型 ...
【技术保护点】
【技术特征摘要】
1.一种时间序列数据处理方法,其特征在于,包括:对包括多个时间序列数据样本的观测样本集进行样本筛选,以至少获得清洁样本集,所述时间序列数据样本包括数据本身及数据标签;以及对所述清洁样本集进行过采样,以获取用于模型训练的平衡样本集。2.根据权利要求1所述的时间序列数据处理方法,其特征在于,还包括:基于第一目标函数,获取所述清洁样本集,其中,所述第一目标函数基于样本损失函数构建。3.根据权利要求1所述的时间序列数据处理方法,其特征在于,基于第一目标函数,获取所述清洁样本集,包括:使用小损失标准(small
‑
loss criterion)对所述时间序列数据样本进行筛选。4.根据权利要求3所述的时间序列数据处理方法,其特征在于,所述小损失标准包括选择指标,所述选择指标为二分类选择指标;优选地,所述选择指标通过以下步骤获得:获取所述观测样本集中每个时间序列数据样本的时间集成损失(temporal ensemble loss);基于所述观测样本集中每个时间序列数据样本的时间集成损失,获取热身阶段(warmup stage)的平均集成损失;以及基于所述热身阶段的平均集成损失、预定的总训练轮次及热身阶段的训练轮次,构建所述选择指标;优选地,所述样本损失函数为交叉熵损失函数,以实现标签平滑;优选地,所述交叉熵损失函数的标签平滑强度可控;优选地,所述平衡样本集基于所述清洁样本集和对所述清洁样本集进行过采样获得的样本而获得;优选地,对所述清洁样本集进行过采样,包括:对所述清洁样本集中的类别k的清洁样本进行过采样时,以所述类别k作为正类,所述类别k之外的类作为负类,获取所述正类的第一协方差矩阵和所述负类的第二协方差矩阵;对所述第一协方差矩阵进行特征分解,以获得特征谱;对所述特征谱进行区域划分,以获取正则化特征谱;以及基于所述正则化特征谱及所述正类的均值向量获取合成样本以完成所述过采样;优选地,基于第二目标函数,获取所述观测样本集中的各个时间序列数据样本的用于模型训练的噪声容忍时间序列表示,其中,所述第二目标函数至少基于所述第一目标函数构建;优选地,还包括:对所述观测样本集中的各个时间序列数据样本进行基于重建损失函数的重建,所述第二目标函数基于所述第一目标函数及所述重建损失函数构建;优选地,以保留时间序列信息的方式对所述观测样本集中的时间序列数据样本进行所述重建;优选地,所述第二目标函数基于所述第一目标函数与所述重建损失函数的线性组合构建。
5.一种时间序列数据分类方法,其特征在于,包括:将时间序列数据样本映射至多维表示;以及将多维表示的所述时间序列数据样本映射至K维输出以完成对所述时间序列数据样本的分类,其中,K为类别的总量;优选地,通过时间序列数据分类装置的数据特征提取模块执行所述将时间序列数据样本映射至多维表示,通过时间序列数据分类装置的分类器模块执行所述将多维表示的所述时间序列数据样本映射至...
【专利技术属性】
技术研发人员:陈杰,周植,潘昊,李宇峰,叶杰平,
申请(专利权)人:贝塔通科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。