一种序列数据集的扩充方法技术

技术编号：35772777 阅读：17 留言：0更新日期：2022-12-01 14:15

本公开揭示了一种序列数据集的扩充方法，包括：获取原始序列数据集中两两序列的距离矩阵；基于原始序列数据集和距离矩阵，获得初始平均序列和初始化后的权重数组；基于初始平均序列和初始化后的权重数组，获得生成序列；构建序列观测值生成模型，并以生成序列作为该模型的输入，输出与生成序列对应的观测值，则生成序列及与之对应的观测值形成完整序列数据集；将完整序列数据集与原始序列数据集合并，去重后即完成对序列数据集的扩充。去重后即完成对序列数据集的扩充。去重后即完成对序列数据集的扩充。

全部详细技术资料下载

【技术实现步骤摘要】
一种序列数据集的扩充方法

[0001]本公开属于深度学习数据集扩充领域，具体涉及一种序列数据集的扩充方法。

技术介绍

[0002]在深度学习领域，在有充足高质量训练数据的场景下，模型在测试数据上往往表现良好，但是在某些领域，数据集的获取成本很高。例如，在锂电池充放电数据集获取过程中，需要对每个锂电池在不同的快充条件、相同的放电条件下进行成百上千次充放电操作，想要获取足够大的锂电数据集需要付出极大的人力物力。因此，小数据集可能存在，而小数据集会带来诸如模型在训练集过拟合、在测试集泛化能力弱、数据集异常值以及数据不平衡等问题。传统的小数据集处理方法，如分割数据集、添加噪声以及模型简化可以缓解过拟合现象，但都不能实现对原始数据集的扩充。近年出现的对抗神经网络在图片类数据集扩充中具有令人满意的效果，但是在序列小数据集中的扩充效果却不尽如人意。
[0003]动态时间规整质心平均(Dynamic Time Warping Barycenter Averaging，DBA)是一种全局平均方法。DBA通过迭代细化初始(可能是任意的)平均序列，以最小化其到平均序列的平方距离(Dynamic Time Warping，DTW)。相较于传统的非线性对齐平均滤波器(Nonlinear alignment and averaging filters，NLAAF)以及优先形状平均(Prioritized shape averaging，PSA)，DBA方法的时间性能是最好的，其时间复杂度为Θ(I
·
N
·/>T2)，其中，I表示DBA方法迭代次数；而NLAAF方法时间复杂度为Θ(N
·
T3)，PSA方法的时间复杂度为Θ(N
·
T3+N2·
T2)，N表示序列个数，T表示每个序列长度。但是，DBA方法只能生成给定类别的序列数据，无法生成每个序列数据对应的观测值。因此，实现基于动态时间规整质心平均方法的序列数据生成对于小数据集序列数据的预测具有重要意义。

技术实现思路

[0004]针对现有技术中的不足，本公开的目的在于提供一种序列数据集的扩充方法，通过该方法能够生成原始序列数集中每个序列对应的观测值，从而实现对数据集进行扩充。
[0005]为实现上述目的，本公开提供以下技术方案：
[0006]一种序列数据集的扩充方法，包括如下步骤：
[0007]S100：获取原始序列数据集中两两序列的距离矩阵；
[0008]S200：基于原始序列数据集和距离矩阵，获得初始平均序列和初始化后的权重数组；
[0009]S300：基于初始平均序列和初始化后的权重数组，获得生成序列；
[0010]S400：构建序列观测值生成模型，并以生成序列作为该模型的输入，输出与生成序列对应的观测值，则生成序列及与之对应的观测值形成完整序列数据集；
[0011]S500：将完整序列数据集与原始序列数据集合并，去重后即完成对原始序列数据集的扩充。
[0012]优选的，步骤S400中，所述序列观测值生成模型包括：
[0013]自编码器，用于提取生成序列的特征信息；
[0014]Transformer，用于根据所提取的生成序列的特征信息输出与生成序列对应的观测值。
[0015]优选的，所述自编码器包括编码器部分和解码器部分，其中，
[0016]编码器部分包括第一输入层、第一全连接层和第二全连接层；
[0017]解码器部分包括第二输入层、第三全连接层和输出层。
[0018]优选的，所述Transformer包括：
[0019]位置编码层、多头注意力层、第一残差连接与标准化层、前馈线性层、第二残差连接与标准化层和全连接层。
[0020]优选的，步骤S400中，所述序列观测值生成模型的训练过程包括：
[0021]S401：对模型的权重和偏执进行初始化；
[0022]S402：将生成序列前向迭代运算输出观测值；
[0023]S403：利用模型损失函数计算输出误差；
[0024]S404：根据误差进行反向传播对模型的权重和偏执进行更新，直至损失函数的计算值趋于稳定。
[0025]优选的，步骤S500中，对合并后的完整序列数据集与原始序列数据集进行去重通过以下方式进行：将完整序列数据集与原始序列数据集混合后，按照每个序列对应的观测值大小进行排序，去除与原始序列数据集中具有重复观测值的生成序列。
[0026]优选的，在执行步骤S100之前，还需对原始序列数据集进行标准化处理。
[0027]优选的，利用标准分数方法或最小最大标准化方法对原始序列数据集进行标准化处理。
[0028]优选的，通过步骤S300获得生成序列之后，还需对该生成序列进行平滑处理。
[0029]优选的，对生成序列进行平滑处理包括：在生成序列中，对长度为W的滑动窗口内的数据点进行k阶多项式拟合。
[0030]与现有技术相比，本公开带来的有益效果为：
[0031]1、使用动态时间规整算法计算两个序列之间的相似度以表征两个序列之间的距离，可以解决传统距离计算方法无法计算序列在x轴上不对齐的问题。
[0032]2、相比动态时间规整质心方法，利用选择性平均方法能够赋予与质心序列中具有相似形状的序列更大的权重，着重考虑了与初始化质心序列具有相似形状，避免了与质心序列形状相差较大的序列对质心的更新产生太大的影响而导致生成数据失去原始形状特征的情况。
[0033]3、通过自编码器提取序列特征，减少了输入数据维度并提取了有用特征。
[0034]4、通过使用Transformer网络架构，能够弥补RNN模型不能并行计算以及CNN模型在浅层感受野小的短板，训练速度也优于基于循环层或卷积层的神经网络架构。
附图说明
[0035]图1是本公开一个实施例提供的一种序列数据集的扩充方法流程图；
[0036]图2是本公开另一个实施例提供的序列观测值生成模型的架构图；
[0037]图3是本公开另一个实施例提供的自编码器的架构图；
[0038]图4是本公开另一个实施例提供的生成序列的示意图。
具体实施方式
[0039]下面将参照附图1至图4详细地描述本公开的具体实施例。虽然附图中显示了本公开的具体实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。
[0040]需要说明的是，在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解，技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异作为区分组件的方式，而是以组件在功能上的差异作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语，故应解释成“包含但不限定于”。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种序列数据集的扩充方法，包括如下步骤：S100：获取原始序列数据集中两两序列的距离矩阵；S200：基于原始序列数据集和距离矩阵，获得初始平均序列和初始化后的权重数组；S300：基于初始平均序列和初始化后的权重数组，获得生成序列；S400：构建序列观测值生成模型，并以生成序列作为该模型的输入，输出与生成序列对应的观测值，则生成序列及与之对应的观测值形成完整序列数据集；S500：将完整序列数据集与原始序列数据集合并，去重后即完成对原始序列数据集的扩充。2.根据权利要求1所述的方法，其中，优选的，步骤S400中，所述序列观测值生成模型包括：自编码器，用于提取生成序列的特征信息；Transformer，用于根据所提取的生成序列的特征信息输出与生成序列对应的观测值。3.根据权利要求2所述的方法，其中，所述自编码器包括编码器部分和解码器部分，其中，编码器部分包括第一输入层、第一全连接层和第二全连接层；解码器部分包括第二输入层、第三全连接层和输出层。4.根据权利要求2所述的方法，其中，所述Transformer包括：位置编码层、多头注意力层、第一残差连接与标准化层、前馈线性层、第二残差连接与标准化...

【专利技术属性】
技术研发人员：王鹏飞，龚辉俊，任秦龙，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人