时间序列数据增强方法、装置和电子设备制造方法及图纸

技术编号:34543424 阅读:12 留言:0更新日期:2022-08-13 21:40
本申请提供一种时间序列数据增强方法、装置和电子设备,通过获取原始数据集,原始数据集中包含多个时间序列数据,每个时间序列数据包括多个时间点数据。针对每个时间序列数据,利用分类模型得到时间序列数据对应的类激活映射分数,类激活映射分数包含与时间点数据相同个数的子分数,每个子分数表征对应的时间点数据的显著性程度。再根据各个时间点数据对应的子分数确定待擦除时间点数据,将待擦除时间点数据进行擦除处理,以对时间序列数据进行增强。本方案通过计算类激活映射分数的方式以得到各个时间点数据的显著性程度,从而针对性地对部分时间点数据进行擦除,在有效时间数据增强的同时,可以避免损失掉其中关键信息的缺陷。陷。陷。

【技术实现步骤摘要】
时间序列数据增强方法、装置和电子设备


[0001]本申请涉及数据处理
,具体而言,涉及一种时间序列数据增强方法、装置和电子设备。

技术介绍

[0002]深度神经网络具有较强的学习能力,往往在大数据集上能够取得很好的效果,而在小数据集上表现出过渡拟合、泛化能力弱等缺点。由于时间序列数据集通常规模较小,因此在时间序列分类任务中这一问题会更加严重。数据增强是一种通用的与模型无关的数据端的解决方案,它通过创建一些新的数据来增大训练集的规模,进而解决深度神经网络的过度拟合以及弱泛化问题。在时间序列分类任务中也可以采用适用于时间序列的数据增强方法。
[0003]现有的时间序列数据增强方法基本可以分为三类:1.基于随机变换的时间序列增强,比如抖动(添加噪音)、旋转(垂直翻转)、切片(裁剪)、缩放、时间维度上的随机扭曲和频率上的扭曲。2.基于模式混合的方法,不同于基于单个样本的随机变换,它是来自同一类别的多个样本的混合。在模式混合中,基于DTW(动态时间扭曲)的方法能比其他方法获得更好的性能。模式混合的其他方法包括随即特征映射,使用次优时间扭曲的平均模式,以及使用DTW的随机引导扭曲。3.基于生成的方法,这些方法通过学习数据的特征来生成新的模式。比如,高斯树、手动数学模型、趋势分量和独立分量、以及生成对抗网络,这些基于生成的方法都试图保持时间序列在数据集中的分布。
[0004]现有的时间序列数据增强方法均将数据集作为一个整体来进行随机变换,并未考虑数据集中包含的数据的具体情况,因此,在随机变换以实现数据增强可能会损失掉其中的关键信息。

技术实现思路

[0005]本申请的目的包括,例如,提供了一种时间序列数据增强方法、装置和电子设备,其能够在不损失数据集中关键信息的基础上实现数据增强。
[0006]本申请的实施例可以这样实现:第一方面,本申请提供一种时间序列数据增强方法,所述方法包括:获取原始数据集,所述原始数据集包含多个时间序列数据,每个所述时间序列数据包括多个时间点数据;针对每个所述时间序列数据,利用分类模型得到所述时间序列数据对应的类激活映射分数,所述类激活映射分数包含与所述时间点数据相同个数的子分数,每个所述子分数表征对应的时间点数据的显著性程度;根据各所述时间点数据对应的子分数确定待擦除时间点数据,将所述待擦除时间点数据进行擦除处理,以对所述时间序列数据进行增强。
[0007]在可选的实施方式中,所述利用分类模型得到所述时间序列数据对应的类激活映
射分数的步骤,包括:将所述时间序列数据输入至分类模型中,得到所述时间序列数据的多个特征映射以及每个特征映射对应的分类权重;根据所述分类权重、特征映射计算得到所述时间序列数据对应的类激活映射分数。
[0008]在可选的实施方式中,所述根据所述分类权重、特征映射计算得到所述时间序列数据对应的类激活映射分数的步骤,包括:将所述特征映射按照对应的分类权重进行加权累加,得到一与所述多个特征映射的长度一致的分数序列;对所述分数序列进行上采样,得到与所述时间序列数据的长度一致的类激活映射分数。
[0009]在可选的实施方式中,所述根据各所述时间点数据对应的子分数确定待擦除时间点数据,将所述待擦除时间点数据进行擦除处理的步骤,包括:将对应的子分数低于预设阈值的时间点数据确定为待擦除时间点数据;利用设定数值替换所述待擦除时间点数据。
[0010]在可选的实施方式中,所述预设阈值通过以下方式获得:针对当前迭代轮次,在所述当前迭代轮次并非第一次迭代轮次和第二次迭代轮次时,获得上一迭代轮次中所述分类模型的损失误差和所述第一次迭代轮次中所述分类模型的损失误差;根据所述第一次迭代轮次和上一迭代轮次所述分类模型的损失误差,计算得到当前迭代轮次中采用的预设阈值。
[0011]在可选的实施方式中,所述预设阈值通过以下方式获得:针对当前迭代轮次,根据所述当前迭代轮次的轮次数以及设置的斜率值,计算得到所述预设阈值。
[0012]在可选的实施方式中,所述方法还包括:基于所述时间序列数据包含的多个时间点数据生成原始序列曲线图;基于所述类激活映射分数包含的多个子分数生成分数序列曲线图;将所述分数序列曲线图中各个时间戳上的数值映射至颜色尺度条上,所述颜色尺度条上数值越大则颜色越深;利用所述颜色尺度条对所述原始序列曲线图中各个时间点数据进行颜色渲染,并将渲染后的原始序列曲线图输出。
[0013]在可选的实施方式中,所述方法还包括:利用上一轮迭代得到的增强的数据集进行下一轮的分类模型的训练,直至训练满足预设要求时,得到训练完成的分类模型。
[0014]第二方面,本申请提供一种时间序列数据增强装置,所述装置包括:获取模块,用于获取原始数据集,所述原始数据集包含多个时间序列数据,每个所述时间序列数据包括多个时间点数据;获得模块,用于针对每个所述时间序列数据,利用分类模型得到所述时间序列数据对应的类激活映射分数,所述类激活映射分数包含与所述时间点数据相同个数的子分
数,每个所述子分数表征对应的时间点数据的显著性程度;增强模块,用于根据各所述时间点数据对应的子分数确定待擦除时间点数据,将所述待擦除时间点数据进行擦除处理,以对所述时间序列数据进行增强。
[0015]第三方面,本申请提供一种电子设备,包括一个或多个存储介质和一个或多个与存储介质通信的处理器,一个或多个存储介质存储有处理器可执行的机器可执行指令,当电子设备运行时,处理器执行所述机器可执行指令,以执行前述实施方式中任意一项所述的方法步骤。
[0016]本申请实施例的有益效果包括,例如:本申请提供一种时间序列数据增强方法、装置和电子设备,通过获取原始数据集,原始数据集中包含多个时间序列数据,每个时间序列数据包括多个时间点数据。针对每个时间序列数据,利用分类模型得到时间序列数据对应的类激活映射分数,类激活映射分数包含与时间点数据相同个数的子分数,每个子分数表征对应的时间点数据的显著性程度。再根据各个时间点数据对应的子分数确定待擦除时间点数据,将待擦除时间点数据进行擦除处理,以对时间序列数据进行增强。本方案通过计算类激活映射分数的方式以得到各个时间点数据的显著性程度,从而针对性地对部分时间点数据进行擦除,在有效时间数据增强的同时,可以避免损失掉其中关键信息的缺陷。
附图说明
[0017]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0018]图1为本申请实施例提供的时间序列数据增强方法的流程图;图2为图1中步骤S102包含的子步骤的流程图;图3为本申请实施例提供的SeaM过程的实现示意图;图4为图2中步骤S1022包含的子步骤的流程图;图5为图1中步骤S103包含的子步骤的流程图;图6为本申请实施例提供的多种预设阈值的示意图;图7为图5中步骤S本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时间序列数据增强方法,其特征在于,所述方法包括:获取原始数据集,所述原始数据集包含多个时间序列数据,每个所述时间序列数据包括多个时间点数据;针对每个所述时间序列数据,利用分类模型得到所述时间序列数据对应的类激活映射分数,所述类激活映射分数包含与所述时间点数据相同个数的子分数,每个所述子分数表征对应的时间点数据的显著性程度;根据各所述时间点数据对应的子分数确定待擦除时间点数据,将所述待擦除时间点数据进行擦除处理,以对所述时间序列数据进行增强。2.根据权利要求1所述的时间序列数据增强方法,其特征在于,所述利用分类模型得到所述时间序列数据对应的类激活映射分数的步骤,包括:将所述时间序列数据输入至分类模型中,得到所述时间序列数据的多个特征映射以及每个特征映射对应的分类权重;根据所述分类权重、特征映射计算得到所述时间序列数据对应的类激活映射分数。3.根据权利要求2所述的时间序列数据增强方法,其特征在于,所述根据所述分类权重、特征映射计算得到所述时间序列数据对应的类激活映射分数的步骤,包括:将所述特征映射按照对应的分类权重进行加权累加,得到一与所述多个特征映射的长度一致的分数序列;对所述分数序列进行上采样,得到与所述时间序列数据的长度一致的类激活映射分数。4.根据权利要求1所述的时间序列数据增强方法,其特征在于,所述根据各所述时间点数据对应的子分数确定待擦除时间点数据,将所述待擦除时间点数据进行擦除处理的步骤,包括:将对应的子分数低于预设阈值的时间点数据确定为待擦除时间点数据;利用设定数值替换所述待擦除时间点数据。5.根据权利要求4所述的时间序列数据增强方法,其特征在于,所述预设阈值通过以下方式获得:针对当前迭代轮次,在所述当前迭代轮次并非第一次迭代轮次和第二次迭代轮次时,获得上一迭代轮次中所述分类模型的损失误差和所述第一次迭代轮次中所述分类模型的损失误差;根据所述第一次迭代轮次和...

【专利技术属性】
技术研发人员:郭晓辉刘品张以宁王瑞牟许东刘旭东
申请(专利权)人:北京航空航天大学杭州创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1