一种基于条件分数扩散的知识嵌入填补软测量方法技术

技术编号：40008027 阅读：5 留言：0更新日期：2024-01-16 14:49

一种基于条件分数扩散的知识嵌入填补软测量方法，属于软测量建模技术领域。其包括以下步骤：(1)获取原始含缺失值的时序样本数据；(2)原始样本数据集划分以及数据预处理；(3)建立基于条件分数扩散的知识嵌入模型；(4)建立三相流过程压力变量预测模型；(5)模型表现评估。本发明专利技术提出一种基于条件分数扩散的知识嵌入填补软测量方法。该方法在数据填补的同时，考虑了填补数据对后续软测量任务的影响，将软测量知识嵌入数据填补过程，显示考虑软测量损失在填补过程的作用。CSDKI针对性地生成既符合原始数据分布特性，又利于提高软测量建模效果的数据，实现针对性数据填补。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及化工过程软测量建模领域，特别涉及一种基于条件分数扩散的知识嵌入填补软测量方法。

技术介绍

1、工业过程中，由于传感器损坏、通信故障、人为操作失误等原因，过程数据存在缺失值。数据缺失已成为软测量建模的一大阻碍。软测量建模通过学习历史数据，然后使用所学模型实现对当前过程状态的预测和控制。当数据存在缺失，模型的训练数据减少，模型无法准确地反映过程状态，从而影响软测量的性能和可靠性。特别是在缺失数据比例较高的情况下，模型可能出现欠拟合的情况，进一步恶化预测性能。同时，数据缺失导致模型对噪声和异常值敏感度增加，降低了模型的鲁棒性。因此，正确处理缺失数据对建立可靠的软测量模型至关重要。

2、常用的缺失值处理方法包括数据删除法和缺失值插补法。数据删除法简单粗暴，该方法直接删除存在缺失值的样本，仅保留完整的样本。在缺失值占比较大的情况下，删除法导致数据集的规模大幅减小，信息丢失严重，从而不利于挖掘数据信息，进一步影响下游预测或分类任务的准确性。插补法是一类更为广泛采用的方法，其目的是基于已知的数据构造完整的数据集，与此同时减小填补数据造成的估计偏差。插补法一般分为两类即统计学插补法和机器学习插补法。统计学插补法一般包括均值插补法、期望最大化插补法等；机器学习插补法可以分为判别方法和生成方法。

3、目前，常用的缺失值填补方法多基于缺失任务展开研究，未结合具体的下游应用如工业软测量建模进行讨论。而数据填补的最终目标往往是构建合适的模型，实现过程监测与控制。因此，结合具体的导向任务进行数据填补将更具有针对性。为了

技术实现思路

1、为了解决时序工业过程中过程变量缺失建立可靠软测量模型困难的问题，本专利技术提出了一种基于条件分数扩散的知识嵌入填补软测量方法；该方法在数据填补的同时，考虑了填补数据对后续软测量任务的影响，将软测量知识嵌入数据填补过程，显示考虑软测量损失在填补过程的作用。csdki针对性地生成既符合原始数据分布特性，又利于提高软测量建模效果的数据，实现针对性数据填补。

2、本专利技术解决其技术问题所采用的技术方案是：

3、一种基于条件分数扩散的知识嵌入填补软测量方法，所述方法包括以下步骤：

4、(1)获取原始含缺失值的时序样本数据；

5、(2)原始样本数据集划分以及数据预处理：

6、将原始数据划分为训练集和测试集，其中训练集的过程变量存在一定比例的缺失值，而测试集的过程变量完整，同时，为加快模型收敛速度，减少模型训练时间，对数据归一化处理，进一步，采用滑动窗口序列化数据集；

7、(3)建立基于条件分数扩散的知识嵌入模型：

8、采用自监督训练方法训练csdki模型，当模型训练完毕，在扩散模型的反向去噪过程中填补数据；

9、(4)建立三相流过程压力变量预测模型：

10、基于填补后的完整数据建立动态软测量模型，并在测试集上验证模型的性能；

11、(5)模型表现评估：

12、为了更客观地评价本专利技术所提方法，引入评价指标均方根误差(root meansquare error,rmse)和平均绝对误差(mean absolute error,mae)进行评价，根据性能评估指标衡量填补值的效果。

13、进一步的，csdki模型为一种扩散模型，其包括两个过程：前向扩散过程和反向生成过程。所述步骤(3)的具体过程如下：

14、步骤3.1：csdki的前向和反向过程：

15、前向过程为逐步加噪声的过程，一般采用高斯噪声反向过程为去噪的过程，可以实现缺失值填补。

16、步骤3.2：训练噪声预测网络：

17、为了在数据填补过程中融入下游软测量建模的知识，在噪声预测网络中考虑软测量损失，当模型训练稳定，即预测的噪声与高斯噪声ε一致时，则停止训练。

18、步骤3.3：填补缺失数据：

19、基于已训练好的噪声预测网络，在t步的反向过程中，逐步填补缺失数据。

20、进一步，所述步骤3.1的具体过程如下：

21、对于包含缺失值的数据其中k表示特征的数量，l表示样本的属性个数，x0对应的掩模矩阵为m，m的值由数字0和1组成，其中0代表数据缺失，1代表数据存在。本专利技术的目标是利用并挖掘所有观测数据中的信息，对缺失数据进行填补。在这里，记所有观测数据为条件观测值所有缺失数据为填补目标为通过csdki模型学习的分布，目标是估计数据的真实条件分布

22、在包含t步的csdki条件扩散模型的前向扩散过程中，第t步数据是基于第(t-1)步数据通过添加高斯噪声得到：

23、

24、其中，为每一步采用的方差，满足βt∈(0,1)。进一步，定义αt＝1-βt和可以得到经t步加噪操作后的噪声数据记作：

25、

26、csdki的前向过程为使数据噪声化的过程，而反向过程为去噪的过程。在反向过程中，步骤t的数据从先前步骤(t+1)中经去噪过程得到。反向过程通过参数化的神经网络建模，其公式表达为：

27、

28、

29、其中，表示到过程的噪声分布预测，其均值和方差通过噪声预测神经网络确定，θ表示神经网络中的可训练参数。csdki模型的关键在于得到训练好的噪声预测网络。

30、进一步，步骤3.2的具体过程如下：

31、以diffwave网络为基础构建噪声预测模型εθ，在diffwave网络的基础上做一定改进以适应时序数据填补过程。diffwave网络的输入为和组成的数据在第t步扩散步骤中，引入维度16的扩散嵌入，其公式如下所示：

32、

33、同时，我们利用时间嵌入d＝{d1:l}作为辅助信息以提高模型性能，时间嵌入的维度为16维，其公式表示为：

34、dembedding(dl)＝(sin(dl/τ0/8),...,sin(dl/τ7/8),cos(dl/τ0/8),...,cos(dl/τ7/8))

35、其中，τ＝10000，l∈{1,2,…,l}。

36、为了捕捉时序数据的时间和特征依赖性，在每个残差层中引入注意力机制。该注意力机制由时间transformer层和特征transformer层组成。其中，时间transformer层以每个时间点作为输入以学习时间依赖性，特征transformer层以每个特征作为输入以学习特征依赖性。时间transformer层和特征transformer层都为一层的transformer编码器结构。

37、为了训练条件扩散模型，我们需要观测数据和已知真实值的缺失值(即本文档来自技高网...

【技术保护点】

1.一种基于条件分数扩散的知识嵌入填补软测量方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于条件分数扩散的知识嵌入填补软测量方法，其特征在于，CSDKI模型为一种扩散模型，其包括前向扩散过程和反向生成过程，所述步骤(3)的具体过程如下：

3.如权利要求2所述的一种基于条件分数扩散的知识嵌入填补软测量方法，其特征在于，所述步骤3.1的具体过程如下：

4.如权利要求3所述的一种基于条件分数扩散的知识嵌入填补软测量方法，其特征在于，所述步骤3.2的具体过程如下：

5.如权利要求4所述的一种基于条件分数扩散的知识嵌入填补软测量方法，其特征在于，所述步骤3.2.4的具体过程如下：

6.如权利要求5所述的一种基于条件分数扩散的知识嵌入填补软测量方法，其特征在于，所述步骤3.3的具体过程如下：

【技术特征摘要】

1.一种基于条件分数扩散的知识嵌入填补软测量方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于条件分数扩散的知识嵌入填补软测量方法，其特征在于，csdki模型为一种扩散模型，其包括前向扩散过程和反向生成过程，所述步骤(3)的具体过程如下：

3.如权利要求2所述的一种基于条件分数扩散的知识嵌入填补软测量方法，其特征在于，所述步骤3.1的具体过程...

【专利技术属性】
技术研发人员：刘毅，戴云，刘昂鹏，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人