当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于多模型融合的工业异常检测模型训练方法和装置制造方法及图纸

技术编号:37429025 阅读:12 留言:0更新日期:2023-04-30 09:49
本发明专利技术公开一种基于多模型融合的工业异常检测模型训练方法和装置,该方法包括:步骤一,获取传感器数据后进行预处理;步骤二,将预处理得到的传感器特征张量分别输入多个教师模型和学生模型,获取模型中各个网络层的特征;步骤三,将所述特征中的中间层张量映射为公共空间张量;步骤四,对所有教师模型的公共空间张量加权平均,得到与学生公共空间张量相对应的教师加权张量,将所有教师模型任务层向量横向拼接成教师任务层拼接向量;步骤五,获取模型的蒸馏损失、任务损失以及预测损失,并加权求和得到总损失;步骤六,重复以上步骤,最小化总损失,更新学生模型神经网络参数,直至收敛,最终固定学生模型神经网络参数,获得目标模型,完成训练。完成训练。完成训练。

【技术实现步骤摘要】
一种基于多模型融合的工业异常检测模型训练方法和装置


[0001]本专利技术涉及工业设备异常检测领域,特别涉及一种基于多模型融合的工业异常检测模型训练方法和装置。

技术介绍

[0002]在工业领域,正确地识别设备异常的类型有助于运维人员更快速的锁定问题、从而及时地采取相应的措施。随着工业传感器的广泛应用,可以收集到大量关键设备的监控数据。数据驱动的异常检测方法应运而生,通过对传感器数据的实时监控,可以动态地识别设备是否出现异常,以及识别异常的类型。
[0003]基于深度学习神经网络的工业异常检测方法正逐步获得重视,基于深度学习的工业异常检测方法有如下优势:1. 对特征工程的依赖较少,可以实现端到端的训练;2. 模型结构灵活,拟合能力强,可以提取出数据中复杂的模式;但是,深度学习方法对于有标注数据集的要求较高,往往需要较大量的标注数据才能达到较好的预测效果。
[0004]在工业异常检测领域,数据标注难度较大,带标注的数据通常难以获得;此外,工业数据涉及数据安全、商业机密问题,不同工厂、部门的设备运行数据往往不能共享,原始数据难以获得;另外,工业设备结构、运行环境都很复杂,很难一开始就掌握所有的异常类型;因此存在迭代模型的需求,从而将新发现和定义的异常类型考虑进去。
[0005]通常,针对相同型号的设备,不同工厂、或者相同工厂在不同的历史时期会训练出多个模型;对现有的模型加以利用可以有效的提升预测效果,其中,传统集成学习可以通过综合多个子模型来提升集成模型的效果;但是集成学习方法存在以下问题:1. 所有的子模型都要参与计算,在子模型数量多时,计算压力显著增加;2. 一般要求所有子模型对几个相同的类别作分类,而在工业异常检测领域,时常出现新的异常类型,不同时期模型所支持的异常类别存在差异。

技术实现思路

[0006]为了解决现有技术中存在的上述技术问题,本专利技术提出了一种基于多模型融合的工业异常检测模型训练方法和装置,其具体技术方案如下:
[0007]一种基于多模型融合的工业异常检测模型训练方法,包括以下步骤:
[0008]步骤一,获取传感器数据后进行预处理;
[0009]步骤二,将预处理得到的传感器特征张量分别输入多个教师模型和学生模型,获取模型中各个网络层输出的特征,特征包括中间层张量和任务层向量;
[0010]步骤三,将教师模型的中间层张量、学生模型的中间层张量分别映射为教师公共空间张量、学生公共空间张量;
[0011]步骤四,获取并根据各个教师公共空间张量的注意力系数,对所有教师公共空间张量加权平均,得到与学生公共空间张量相对应的教师加权张量,再将所有的教师模型任务层向量横向拼接成一个一维的教师任务层拼接向量;
[0012]步骤五,对比学生公共空间张量与其相应的教师加权张量,得到蒸馏损失;对比学生模型任务层向量和教师任务层拼接向量,得到任务损失;对比数据集标注的标签与学生模型的任务层向量,得到预测损失;基于所述的蒸馏损失、任务损失与预测损失,得到总的损失;
[0013]步骤六,重复步骤一至步骤五,最小化总的损失,更新学生模型的神经网络参数,直至收敛并固定学生模型的神经网络参数,获得目标模型,完成训练。
[0014]进一步的,所述步骤一具体为:利用单层的LSTM网络,将传感器数据转化为传感器特征张量,其中是传感器数据的时间窗口大小即数据长度,为传感器特征张量的隐藏层维度。
[0015]进一步的,所述步骤二,具体包括以下子步骤:
[0016]S21,将传感器特征张量分别输入预先训练好的个教师模型,对于第个教师模型,每个模型有个中间层;对于第个模型的第个中间层,其输出的中间层张量为;计算得到共个教师模型的中间层张量;
[0017]S22,将传感器特征张量输入学生模型,对于学生模型的第个中间层,计算得到第层的学生模型中间层张量;
[0018]S23,对于第个教师模型的最终层,计算得到教师任务向量;对于学生模型的最终层,计算得到学生任务向量;所述学生任务向量的维度,等于所有教师模型任务向量维度的和,加上数据集中新出现的类别数。
[0019]进一步的,所述步骤三,具体包括以下子步骤:
[0020]S31,将教师模型的中间层张量转化为维度相同的教师公共空间张量,对于第个教师模型的第个层,有相应的教师公共空间张量,其中表示由卷积神经网络层实现的非线性变换;
[0021]S32,若非线性变换中的参数是固定的,则计算得到共个教师公共空间张量;否则,通过步骤S33、步骤S34更新非线性变换中的参数;
[0022]S33,对于第个教师模型的第个层相应的教师公共空间张量,通过非线性变换将其映射为与教师模型的中间层张量维度相同的教师中间层重构张量;
[0023]S34,通过对比教师模型的中间层张量与教师中间层重构张量,计算重构误差:
[0024][0025]其中,为重构损失函数;通过梯度下降法最小化,更新非线性变换
的参数,直到重构误差小于阈值,或满足迭代步数,固定参数;
[0026]S35,将学生模型的中间层张量转化为维度相同的学生公共空间张量,对于第个层,;其中是由神经网络层实现的非线性变换,其参数为;所述维度相同的学生公共空间张量,其维度与步骤S31所述教师公共空间张量维度一致。
[0027]进一步的,所述步骤四,具体包括以下子步骤:
[0028]S41,基于第层学生公共空间张量,第个教师模型第层的教师公共空间张量,通过注意力机制,得到教师公共空间张量的注意力系数,表达式为:
[0029];
[0030]S42,根据注意力系数,对所有教师公共空间张量作加权平均,得到与学生模型第层相应的教师加权张量,表达式为:
[0031];
[0032]S43,将所有的教师模型的任务层向量拼接成一个一维的教师任务层拼接向量,其中,若标注数据集中出现个新的异常类别,则在所述教师任务层拼接向量上,拼接上一个长度为的全0向量,得到新的教师任务层拼接向量,表达式为:
[0033],
[0034]其中,为向量拼接操作,为长度为的全零向量,为数据集中新出现的异常类别数。
[0035]进一步的,所述步骤五,具体包括以下子步骤:
[0036]S51,对比学生模型的第k个层的学生公共空间张量,与其相应的第k个教师加权张量,得到蒸馏损失,表达式为:
[0037][0038]其中,为损失函数;
[0039]其中,为学生模型中间层的数量,为均方差损失函数,表达式为:
[0040];
[0041]S52,对比学生模型任务层向量即输出的向量和相应教师任务层拼接向量,得到软目标损失函数,表达式为:
[0042];
[0043]S53,对于少量有标注的数据集,对比学生模型输出的向量与标注正确类别所对应的独热表示,得到预测损失,表达式为:
[0044],
[0045]其中,、分别为正确类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模型融合的工业异常检测模型训练方法,其特征在于,包括以下步骤:步骤一,获取传感器数据后进行预处理;步骤二,将预处理得到的传感器特征张量分别输入多个教师模型和学生模型,获取模型中各个网络层输出的特征,特征包括中间层张量和任务层向量;步骤三,将教师模型的中间层张量、学生模型的中间层张量分别映射为教师公共空间张量、学生公共空间张量;步骤四,获取并根据各个教师公共空间张量的注意力系数,对所有教师公共空间张量加权平均,得到与学生公共空间张量相对应的教师加权张量,再将所有的教师模型任务层向量横向拼接成一个一维的教师任务层拼接向量;步骤五,对比学生公共空间张量与其相应的教师加权张量,得到蒸馏损失;对比学生模型任务层向量和教师任务层拼接向量,得到任务损失;对比数据集标注的标签与学生模型的任务层向量,得到预测损失;基于所述的蒸馏损失、任务损失与预测损失,得到总的损失;步骤六,重复步骤一至步骤五,最小化总的损失,更新学生模型的神经网络参数,直至收敛并固定学生模型的神经网络参数,获得目标模型,完成训练。2.如权利要求1所述的一种基于多模型融合的工业异常检测模型训练方法,其特征在于,所述步骤一具体为:利用单层的LSTM网络,将传感器数据转化为传感器特征张量,其中是传感器数据的时间窗口大小即数据长度,为传感器特征张量的隐藏层维度。3.如权利要求2所述的一种基于多模型融合的工业异常检测模型训练方法,其特征在于,所述步骤二,具体包括以下子步骤:S21,将传感器特征张量分别输入预先训练好的个教师模型,对于第个教师模型,每个模型有个中间层;对于第个模型的第个中间层,其输出的中间层张量为;计算得到共个教师模型的中间层张量;S22,将传感器特征张量输入学生模型,对于学生模型的第个中间层,计算得到第层的学生模型中间层张量;S23,对于第个教师模型的最终层,计算得到教师任务向量;对于学生模型的最终层,计算得到学生任务向量;所述学生任务向量的维度,等于所有教师模型任务向量维度的和,加上数据集中新出现的类别数。4.如权利要求3所述的一种基于多模型融合的工业异常检测模型训练方法,其特征在于,所述步骤三,具体包括以下子步骤:S31,将教师模型的中间层张量转化为维度相同的教师公共空间张量,对于第个教师模型的第个层,有相应的教师公共空间张量,其中表示由卷积神经网络层实现的非线性变换;S32,若非线性变换中的参数是固定的,则计算得到共个教师公共空间张量 ;否则,通过步骤S33、步骤S34更新非线性变换中的参数;
S33,对于第个教师模型的第个层相应的教师公共空间张量,通过非线性变换将其映射为与教师模型的中间层张量维度相同的教师中间层重构张量;S34,通过对比教师模型的中间层张量与教师中间层重构张量,计算重构误差:,其中,为重构损失函数;通过梯度下...

【专利技术属性】
技术研发人员:刘通郏维强王玉柱韩松岭张梦璘
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1