当前位置: 首页 > 专利查询>浙江大学专利>正文

基于堆叠泊松自编码器网络的计数数据软测量建模方法技术

技术编号:34019041 阅读:22 留言:0更新日期:2022-07-02 16:29
本发明专利技术公开了一种基于堆叠泊松自编码器网络的计数数据软测量建模方法,其中提出了一种堆叠泊松自编码器网络结构。该编码器在预训练阶段引入计数型质量变量来指导特征提取,且针对计数数据的离散性,质量变量是通过泊松回归网络层的方式集成到深度堆叠自编码器框架中,使得模型学习到的特征表示与计数型质量变量高度相关。本发明专利技术方法不仅提升了计数数据软测量模型的特征提取能力,并且提升了计数型质量变量的预测效果。量变量的预测效果。量变量的预测效果。

【技术实现步骤摘要】
基于堆叠泊松自编码器网络的计数数据软测量建模方法


[0001]本专利技术属于工业过程预测及软测量领域,涉及一种基于堆叠泊松自编码器网络的计数数据软测量建模方法。

技术介绍

[0002]计数数据作为一种重要数据类型,其具有离散、非负整数、高偏斜分布等特点,有必要建立离散计数数据模型,即建立某一事件发生次数(称为因变量、输出变量或响应变量)与引起其发生的因素(称为自变量、输入变量或过程变量)之间的联系,以预报事件的发生次数。
[0003]在过程工业中,软测量作为一种工具,可以用来预测产品质量或其他重要变量,可以考虑用来对计数数据建模处理。基于数据驱动的软测量建模方法常见的是多元线性回归(MLR)和偏最小二乘(PLS)回归。它们假设响应变量服从正态和同方差分布,这与观测到的计数数据高度过分散分布相违背。此外计数数据是非负整数,但MLR和PLS可能会使因变量产生负值。而非线性建模方法如支持向量回归(SVR)和人工神经网络(ANN)方法存在较差的可解释性的缺点,同时不能保证预测的非负性。
[0004]针对计数数据,泊松回归模型是其建模的典型代表。但是工业流程中,过程数据存在高维、非线性等特征,泊松回归用于工业过程时有着数据特征挖掘不充分的问题。因此,提取过程数据的深度特征是计数数据软测量建模至关重要的步骤。
[0005]自编码器结构作为其典型代表,已被设计并广泛应用于复杂工业过程。但是传统自编码器的预训练都是采用无监督的学习方式,通过对输入的重构并约束误差最小化来学习有效的特征表示,因此从深度网络中所提取的特征可能与计数数据软测量的预测输出并无关系,使得这部分过程显得低效。
[0006]对工业过程的计数数据进行预测时,由于过程变量可能较多,同时数据存在非线性、高维等特点,因此在建立计数数据软测量模型时,提取出与计数数据类型质量变量具有高度相关性的特征是十分有必要的。针对上述特征提取阶段存在的问题,如果能够设计合理的方式去引入质量变量对于提取输入数据的特征进行有效指导,同时还能考虑计数数据的特性,那么这个问题可以迎刃而解。

技术实现思路

[0007]针对常规自编码器不能提取质量变量相关特征的问题,同时考虑计数数据的离散、非负与高偏斜特性,本专利技术提出一种基于堆叠泊松自编码器网络的计数数据软测量建模方法。本专利技术方法在预训练的解码阶段引入计数型质量变量来指导特征提取,通过泊松网络层将计数型质量变量集成到深度堆叠编码器结构中,使得模型学习到的特征表示与计数型的质量变量高度相关,提升了特征提取效率,并且提升了计数型质量变量的预测效果。
[0008]本专利技术的具体技术方案如下:
[0009]一种基于堆叠泊松自编码器网络的计数数据软测量建模方法,该方法包括如下步
骤:
[0010]S1:收集建模用的输入输出训练数据集:其中,x代表输入变量,y代表离散计数数据类型的输出变量,N表示数据样本个数;
[0011]S2:构建堆叠泊松自编码器网络,所述堆叠泊松自编码器网络由多个监督泊松自编码器分层堆叠而成,前一个监督泊松自编码器的隐藏层的输出作为下一个监督泊松自编码器的输入层的输入;所述监督泊松自编码器包括一个输入层、一个隐藏层和一个输出层,从隐藏层到输出层包含输入重构网络层和泊松网络层,所述输入重构网络层用于对输入向量进行重构,所述泊松网络层用于对计数型质量数据进行预测;
[0012]随机初始化堆叠泊松自编码器网络的泊松网络权重、神经网络连接权重及偏置参数。
[0013]S3:将训练数据输入给堆叠泊松自编码器网络,根据最小化损失函数训练第一个监督泊松自编码器,获得第一个监督泊松自编码器的权重和偏置参数和隐藏层的输出将h1作为第二个监督泊松自编码器的输入层的输入,根据最小化损失函数训练第二个监督泊松自编码器,获得对应的权重和偏置参数,以此层层递进,使用h
k
‑1,根据训练第k个监督泊松自编码器SPAE
k
获得参数和h
k
,直到最后一个监督泊松自编码器训练完成;k≤L,其中,L为监督泊松自编码器的数量;
[0014]S4:结束S3的逐层训练后,在第L个监督泊松自编码器的隐藏层的输出h
L
和输出变量y之间建立泊松网络进行回归,根据预测误差对回归网络参数进行调整更新;回归网络训练结束并保存堆叠泊松自编码器网络;
[0015]S5:将待预测输入数据输入到保存的堆叠泊松自编码器网络,经过堆叠泊松自编码器网络的前向传播即可得到计数型质量变量预测值。
[0016]进一步地,所述S3中,监督泊松自编码器中的编码器表示为:
[0017]h=σ(W
e
·
x+b
e
)
[0018]其中,σ代表sigmoid激活函数,x是输入层的输入向量,h是隐藏层的输出向量,W
e
和b
e
分别表示编码器的权重和偏置;
[0019]监督泊松自编码器中的解码器表示为:
[0020][0021][0022]其中,exp代表指数函数,W
r
和b
r
分别表示解码器中重构输入向量的权重和偏置;W
p
和b
p
分别表示泊松网络层的权重和偏差参数,表示重构后的输入向量,分别预测的输出向量;
[0023]所述损失函数L
rec
表示为:
[0024][0025]其中,λ表示对输入向量的重构误差和输出向量的预测误差的权重的比值;的含义为二范数,

表示哈达玛积。
[0026]进一步地,所述S3中,第k个监督泊松自编码器的训练过程表示如下:
[0027][0028][0029][0030][0031]其中,k=1,2,

L,和分别是第i个样本在第k个监督泊松自编码器的输入数据和重构的数据,和分别是第k层编码器和解码器的权重矩阵以及偏置项;
[0032]通过如下的子步骤来实现:
[0033]第k个监督泊松自编码器训练的损失函数如下:
[0034][0035]其中,y
i
和分别代表第i个样本对应的计数型质量变量实际观测值和其在第k个监督泊松自编码器的预测值。
[0036]进一步地,所述S4中,预测的输出变量的计算公式如下:
[0037][0038]其中,W
y
和b
y
分别表示泊松网络的权重和偏置;
[0039]损失函数如下:
[0040][0041]本专利技术的有益效果如下:
[0042]本专利技术提出的基于堆叠泊松自编码器网络的计数数据软测量建模方法用于计数数据质量预测,来解决常规自编码器特征提取效率低下且不适用于计数数据建模的问题。通过把计数型质量变量添加到解码阶段的输出层,且考虑到计数数据的离散性、非负性,计数数据是经过泊松回归网络层的方式集成到深度自编码器框架中,改进了损失函本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于堆叠泊松自编码器网络的计数数据软测量建模方法,其特征在于,该方法包括如下步骤:S1:收集建模用的输入输出训练数据集:其中,x代表输入变量,y代表离散计数数据类型的输出变量,N表示数据样本个数;S2:构建堆叠泊松自编码器网络,所述堆叠泊松自编码器网络由多个监督泊松自编码器分层堆叠而成,前一个监督泊松自编码器的隐藏层的输出作为下一个监督泊松自编码器的输入层的输入;所述监督泊松自编码器包括一个输入层、一个隐藏层和一个输出层,从隐藏层到输出层包含输入重构网络层和泊松网络层,所述输入重构网络层用于对输入向量进行重构,所述泊松网络层用于对计数型质量数据进行预测;随机初始化堆叠泊松自编码器网络的泊松网络权重、神经网络连接权重及偏置参数。S3:将训练数据输入给堆叠泊松自编码器网络,根据最小化损失函数训练第一个监督泊松自编码器,获得第一个监督泊松自编码器的权重和偏置参数和隐藏层的输出将h1作为第二个监督泊松自编码器的输入层的输入,根据最小化损失函数训练第二个监督泊松自编码器,获得对应的权重和偏置参数,以此层层递进,使用h
k
‑1,根据训练第k个监督泊松自编码器SPAE
k
获得参数和h
k
,直到最后一个监督泊松自编码器训练完成;k≤L,其中,L为监督泊松自编码器的数量;S4:结束S3的逐层训练后,在第L个监督泊松自编码器的隐藏层的输出h
L
和输出变量y之间建立泊松网络进行回归,根据预测误差对回归网络参数进行调整更新;回归网络训练结束并保存堆叠泊松自编码器网络;S5:将待预测输入数据输入到保存的堆叠泊松自编码器网络,经过堆叠泊松自编码器网络的前向传播即可得到计数型质量变量预测值。2.根据权利要求1所述的基于堆叠泊松自编码器网络的计数数据软测量建模方法,其特征在于,所述S3中,监督泊松自编码器中的编码器表示为:h=σ(W
e
·
x+b

【专利技术属性】
技术研发人员:张新民刘颖宋执环朱哲人
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1