一种基于特征重校准机制的时序数据分类方法及系统技术方案

技术编号:29256020 阅读:20 留言:0更新日期:2021-07-13 17:27
本发明专利技术提供了一种基于特征重校准机制的时序数据分类方法及系统。该方案包括获取样本数据进行预处理,生成处理后的样本数据,生成样本空间,预处理包括异常值筛选、异常值替换和归一化处理;对样本空间中数据进行两种预设尺度的切分,生成第一子时序数据和第二子时序数据,将第一子时序数据作为CNN模型的输入,将第二子时序数据作为所述CNN模型中注意力机制模块的输入,生成LSTM并行融合数据;获得训练用输入向量,通过训练获得注意力权重;获取所述LSTM并行融合数据和所述注意力权重,进行加权求和,生成目标特征重校准输出。该方案在CNN基础上在空间进行加权输入特征,关注特定空间区域,并进行特征重校准,集中学习重要数据特征,提升分类精度。

【技术实现步骤摘要】
一种基于特征重校准机制的时序数据分类方法及系统
本专利技术涉及数据挖掘
,更具体地,涉及一种基于特征重校准机制的时序数据分类方法及系统。
技术介绍
随着5G、互联网和物联网的发展,生活中成千上万的设备以及数以百万计的传感器,每秒产生百万条的时序数据,这使得时序数据的数据量急剧膨胀,而对这些时序数据进行研究和处理,找出其中蕴含的变化规律已经成为一个热门话题。其中,时序数据分类在时序数据研究中具有重要意义,是数据挖掘中一个具有挑战性的问题。但现有的时序数据分类方案,可以分为基于距离的方法和基于特征的方法。具体的存在以下缺陷:基于距离就是通过设计准确的相似性度量方法,度量时序对象之间的相似性从而进行分类;基于特征就是通过特征提取、模型匹配等技术奖时序数据转化为特征表示活模型参数,再进行分类。但是上述方法都有一些不足:基于距离的方法计算复杂度较高,基于特征的方法,在特征提取时忽略对于粗细粒度特征、全局和局部特征以及特征重要程度差异性的区分,从而导致分类精度不高。
技术实现思路
鉴于上述问题,本专利技术提出了一种基于特征重校准机制的时序数据分类方法及系统,对给定的时间序列集合在CNN的基础上,在空间或通道上加权全局输入特征,从而达到关注特定空间区域或通道的目的,进一步进行特征重校准,再次集中学习更重要的数据特征,提升分类的精度。根据本专利技术实施例的第一方面,提供一种基于特征重校准机制的时序数据分类方法,具体包括:获取样本数据进行预处理,生成处理后的样本数据,生成样本空间,所述预处理包括异常值筛选、异常值替换和归一化处理;对所述样本空间中的数据进行两种预设尺度的切分,生成第一子时序数据和第二子时序数据,所述第一子时序数据和所述第二子时序数据均为二阶数据矩阵;将所述第一子时序数据作为CNN模型的输入,将第二子时序数据作为所述CNN模型中注意力机制模块的输入,生成LSTM并行融合数据;获得训练用输入向量,通过训练获得注意力权重;获取所述LSTM并行融合数据和所述注意力权重,进行加权求和,生成目标特征重校准输出。在一个或多个实施例中,优选地,所述获取样本数据进行预处理,生成处理后的样本数据,生成样本空间,所述预处理包括异常值筛选、异常值替换和归一化处理,具体包括:获取所述样本数据,通过分位差法或标准差法中的一种进行所述异常值筛选,标记对应的异常值,其中,所述标准差法为使用所述样本数据筛选均值的二倍标准差范围,所述分位差法为使用上下4分位数差进行所述样本数据中所述异常值的筛选;对所述异常值进行替换处理,所述替换处理包括采用前后k个值的平均值进行替换,并将替换所述异常值后的所述样本数据保存为中间样本数据;对所述中间样本数据进行归一化处理,生成所述样本空间,其中,所述归一化处理为线性函数归一化,将原始数据按照最大值和最小值进行数据的线性转换,转换为最大值为1最小值为0的数据。在一个或多个实施例中,优选地,所述对所述样本空间中的数据进行两种预设尺度的切分,生成第一子时序数据和第二子时序数据,所述第一子时序数据和所述第二子时序数据均为二阶数据矩阵,具体包括:对所述样本空间中的数据进行第一预设尺度的切分,生成所述第一子时序数据;获取所述第一子时序数据的数据中点为第一数据中点;获取所述第一子时序数据的数据长度为第一数据长度;将所述第一数据中点保存为第二数据中点;生成长度超过所述第一数据长度的第二数据长度;根据所述第二数据中点和所述第二数据长度对所述样本空间中的数据进行第二预设尺度的切分,生成所述第二子时序数据。在一个或多个实施例中,优选地,所述将所述第一子时序数据作为CNN模型的输入,将第二子时序数据作为所述CNN模型中注意力机制模块的输入,生成LSTM并行融合数据,具体包括:将所述第一子时序数据输入所述CNN模型,获得CNN模块输出;将所述第二子时序数据输入所述CNN模型中注意力机制模块,获得注意力机制模块输出;根据所述CNN模块输出和所述注意力机制模块输出利用第一计算公式进行并行特征融合,生成所述LSTM并行融合数据;所述第一计算公式为:W(i,c)=WCNN(i,c)⊙Wattention(i,c)其中,W(i,c)为所述LSTM并行融合数据,WCNN(i,c)为所述CNN模块输出,Wattention(i,c)为所述注意力机制模块输出,⊙为逐元素相乘,i为特征层中时间序列的相应位置;c为通道。在一个或多个实施例中,优选地,所述获得训练用输入向量,通过训练获得注意力权重,具体包括:获得训练用输入向量,并根据第二计算公式获得环境向量与所述训练用输入向量之间的相关程度;根据所述相关程度利用第三计算公式进行标准化处理,获得所述注意力权重;所述第二计算公式为:si=tanh(wThi+bi)其中,si为所述环境向量与所述训练用输入向量之间的相关程度,hi为所述训练用输入向量,tanh为双曲正切函数,bi为偏置向量,wT为权重矩阵;所述第三计算公式为:其中,si为所述环境向量与所述训练用输入向量之间的相关程度,softmax为标准化函数,ai为所述注意力权重。在一个或多个实施例中,优选地,所述获取所述LSTM并行融合数据和所述注意力权重,进行加权求和,生成目标特征重校准输出,具体包括:获取所述LSTM并行融合数据及对应的所述LSTM并行融合数据的数目;获取所述LSTM并行融合数据对应的所述注意力权重;根据第四计算公式加权求和生成所述目标特征重校准输出;所述第四计算公式为:其中,ai为所述注意力权重,hi为所述训练用输入向量,ci为所述环境向量,k为预设的向量输入个数。根据本专利技术实施例的第二方面,提供一种基于特征重校准机制的时序数据分类系统,包括:数据预处理模块,用于获取样本数据进行预处理,生成处理后的样本数据,生成样本空间,所述预处理包括异常值筛选、异常值替换和归一化处理;数据获取模块,用于对所述样本空间中的数据进行两种预设尺度的切分,生成第一子时序数据和第二子时序数据,所述第一子时序数据和所述第二子时序数据均为二阶数据矩阵;时序特征提取模块,用于将所述第一子时序数据作为CNN模型的输入,将第二子时序数据作为所述CNN模型中注意力机制模块的输入,生成LSTM并行融合数据;权重训练模块,用于获得训练用输入向量,通过训练获得注意力权重;特征重校准模块,用于获取所述LSTM并行融合数据和所述注意力权重,进行加权求和,生成目标特征重校准输出。在一个或多个实施例中,优选地,还包括数据输入模块,用于通过键盘输入、存储设备导入和互联网下载方式之一将训练数据和时序输入输入到所述时序数据分类系统中。根据本专利技术实施例的第三方面,提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处本文档来自技高网...

【技术保护点】
1.一种基于特征重校准机制的时序数据分类方法,其特征在于,包括:/n获取样本数据进行预处理,生成处理后的样本数据,生成样本空间,所述预处理包括异常值筛选、异常值替换和归一化处理;/n对所述样本空间中的数据进行两种预设尺度的切分,生成第一子时序数据和第二子时序数据,所述第一子时序数据和所述第二子时序数据均为二阶数据矩阵;/n将所述第一子时序数据作为CNN模型的输入,将第二子时序数据作为所述CNN模型中注意力机制模块的输入,生成LSTM并行融合数据;/n获得训练用输入向量,通过训练获得注意力权重;/n获取所述LSTM并行融合数据和所述注意力权重,进行加权求和,生成目标特征重校准输出。/n

【技术特征摘要】
1.一种基于特征重校准机制的时序数据分类方法,其特征在于,包括:
获取样本数据进行预处理,生成处理后的样本数据,生成样本空间,所述预处理包括异常值筛选、异常值替换和归一化处理;
对所述样本空间中的数据进行两种预设尺度的切分,生成第一子时序数据和第二子时序数据,所述第一子时序数据和所述第二子时序数据均为二阶数据矩阵;
将所述第一子时序数据作为CNN模型的输入,将第二子时序数据作为所述CNN模型中注意力机制模块的输入,生成LSTM并行融合数据;
获得训练用输入向量,通过训练获得注意力权重;
获取所述LSTM并行融合数据和所述注意力权重,进行加权求和,生成目标特征重校准输出。


2.如权利要求1所述的一种基于特征重校准机制的时序数据分类方法,其特征在于,所述获取样本数据进行预处理,生成处理后的样本数据,生成样本空间,所述预处理包括异常值筛选、异常值替换和归一化处理,具体包括:
获取所述样本数据,通过分位差法或标准差法中的一种进行所述异常值筛选,标记对应的异常值,其中,所述标准差法为使用所述样本数据筛选均值的二倍标准差范围,所述分位差法为使用上下4分位数差进行所述样本数据中所述异常值的筛选;
对所述异常值进行替换处理,所述替换处理包括采用前后k个值的平均值进行替换,并将替换所述异常值后的所述样本数据保存为中间样本数据;
对所述中间样本数据进行归一化处理,生成所述样本空间,其中,所述归一化处理为线性函数归一化,将原始数据按照最大值和最小值进行数据的线性转换,转换为最大值为1最小值为0的数据。


3.如权利要求1所述的一种基于特征重校准机制的时序数据分类方法,其特征在于,所述对所述样本空间中的数据进行两种预设尺度的切分,生成第一子时序数据和第二子时序数据,所述第一子时序数据和所述第二子时序数据均为二阶数据矩阵,具体包括:
对所述样本空间中的数据进行第一预设尺度的切分,生成所述第一子时序数据;
获取所述第一子时序数据的数据中点为第一数据中点;
获取所述第一子时序数据的数据长度为第一数据长度;
将所述第一数据中点保存为第二数据中点;
生成长度超过所述第一数据长度的第二数据长度;
根据所述第二数据中点和所述第二数据长度对所述样本空间中的数据进行第二预设尺度的切分,生成所述第二子时序数据。


4.如权利要求1所述的一种基于特征重校准机制的时序数据分类方法,其特征在于,所述将所述第一子时序数据作为CNN模型的输入,将第二子时序数据作为所述CNN模型中注意力机制模块的输入,生成LSTM并行融合数据,具体包括:
将所述第一子时序数据输入所述CNN模型,获得CNN模块输出;
将所述第二子时序数据输入所述CNN模型中注意力机制模块,获得注意力机制模块输出;
根据所述CNN模块输出和所述注意力机制模块输出利用第一计算公式进行并行特征融合,生成所述LSTM并行融合数据;
所述第一计算公式为:
W(i,c)=WCNN(i,c)⊙Wattention(i,c)
其中,W(i,c)为所述LSTM并行融合数据,WCNN(i,c)为所...

【专利技术属性】
技术研发人员:张凯姚丽杨光远逯天斌
申请(专利权)人:广东众聚人工智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1