当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于数据分布的小样本扩充方法技术

技术编号:19140238 阅读:22 留言:0更新日期:2018-10-13 08:41
本发明专利技术公开了一种基于数据分布的小样本扩充方法,属于复杂工业过程建模和软测量领域。在基于数据驱动理论的建模过程中,样本的数量会对所建模型的精度产生影响。针对训练样本数量较少导致模型信息缺失的问题,该方法通过分析数据的分布特征来确定样本扩充的区间范围,通过使用欧氏距离和角度原则进行数据扩充,利用扩充数据完善建模对象在各阶段的信息,并进一步重构建模数据集,能够对关键变量进行精确预测,从而提高产品质量,降低生产成本。

A small sample expansion method based on data distribution

The invention discloses a small sample expansion method based on data distribution, which belongs to the field of complex industrial process modeling and soft measurement. In the process of modeling based on data-driven theory, the number of samples will affect the accuracy of the model. Aiming at the problem of missing model information caused by the small number of training samples, this method determines the range of sample expansion by analyzing the distribution characteristics of data, expands the data by using Euclidean distance and angle principle, perfects the information of modeling object in each stage by using the extended data, and reconstructs the modeling data further. Set can accurately predict key variables, thereby improving product quality and reducing production costs.

【技术实现步骤摘要】
一种基于数据分布的小样本扩充方法
本专利技术涉及一种基于数据分布的小样本扩充方法,属于复杂工业过程建模和软测量领域。
技术介绍
在工业过程复杂性日益增加,控制要求不断提高的背景下,通常需要对一些无法或难以直接测量的质量变量进行监控。这些变量有的虽然可用在线分析仪表进行检测,但是价格昂贵,而且可靠性差、具有较大测量滞后,难以在实时检测中广泛的应用。为了解决这类变量的估计和控制问题,软测量技术得到了很大的发展。软测量的原理就是根据某种最优准则,通过选择一组与主导变量(被估计变量)相关的一组辅助变量,建立以辅助变量为输入,被估计变量的最优估计为输出的数学模型。在数据驱动的软测量建模中,需要通过训练样本来发掘模型对象的过程信息。在许多情况下一个完整工业过程是由多个子阶段组成的。由于各子阶段的特征信息是有差别的,所以在一些样本较少的实际情况中,有限的小样本难以准确的表征过程的整体信息,从而导致所建模型的预测效果会受到影响。现有的方法都只局限于提高样本质量或改进建模方法这两个方面,没有从样本数量的角度出发,来提升模型的泛化性能和预测精度。
技术实现思路
在一些样本较少的实际情况中,有限的小样本难以准确的表征过程的整体信息,从而导致主导变量估计不准确的问题,在此情况下,若对小样本数据进行某种选择性的扩充,可以使得扩充后样本更加全面的包含各阶段的特征信息。进一步利用重构的建模数据集进行建模,将会大大提高所建模型对主导变量的预测精度。本专利技术考虑小样本建模的情况,首先通过分析实际的工业过程,得到数据的分布特征,然后再对已有的小样本进行分组和辅助变量的归一化处理,在数据信息不充足的子区间内,利用欧氏距离和角度原则,选择相似样本进行样本扩充,使得重构的样本集可以更加全面的表征模型各阶段的信息,提升了所建模型的预测精度。为了解决目前存在的由于有限的小样本不能完整准确的表征工程的整体信息从而导致主导变量估计不准确的问题,本专利技术提供一种基于数据分布的小样本扩充方法,所述技术方案如下:步骤1:对工业过程数据进行归一化处理,即令x'=(x-xmin)/(xmax-xmin),其中x为原始训练样本,x'为归一化处理后的训练样本,xmin和xmax分别为原始训练样本集中的最小值与最大值,所述工业过程数据的初始样本符合期望为μ、标准差为σ的对数正态分布;所述工业过程数据的初始样本数量少于50或原始训练样本所包含的过程信息不完整;步骤2:计算原始训练样本中每个ln(Yk)的值(其中k=1,…,m),m为原始训练样本数,并找到原始训练样本中主导变量的最大值Ymax和最小值Ymin;所述原始训练样本中包括主导变量和辅助变量;其中,所述主导变量为需要预测的变量,所述辅助变量为直接测得的变量;步骤3:根据正态分布的3σ原则,将区间(μ-3σ,μ+3σ)作为随机变量ln(Y)实际的取值区间,并且落在区间(μ-3σ,μ-2σ)、(μ-2σ,μ-σ)、(μ-σ,μ)、(μ,μ+σ)、(μ+σ,μ+2σ)、(μ+2σ,μ+3σ)上的概率分别为2.1%、13.6%、34.1%、34.1%、13.6%、2.1%;令ln(Ymax)=μ+3σ,ln(Ymin)=μ-3σ,将原始训练样本以主导变量的大小为分类标准,等距离划分为六组;步骤4:统计ln(Yk)在六个区间的样本个数,若区间内样本个数不少于理论的分配比率,即分别不少于2.1%、13.6%、34.1%、34.1%、13.6%、2.1%则不作处理;若区间内样本个数小于分配比率则进行样本扩充,扩充步骤如下:Step1:两两相互计算训练样本之间的相似度;数据之间相似度的计算方法如下:a,计算xq和xi之间的欧氏距离和角度:dqi=||xq,xi||2(1)其中,Δxq=xq-xq-1,Δxi=xi-xi-1(3)b,如果cosθqi≥0,计算相似度系数sqi:式中,γ是介于0到1之间的权重系数,如果cosθqi<0,则丢弃数据(xi,yi),计算得到的sqi也在0和1之间,且sqi越接近1,则表示xq和xi的相似度越高;Step2:取相似度最大的若干组,将每组的2个数据取算术平均数得到新的样本添加到原始训练样本中;Step3:其他需要扩充的区间亦做上述扩充处理,最后得到扩充过后新的训练样本集;对相似度的阈值进行设置;通常阈值设置为0.8,当阈值大于0.8表示两个样本符合相似度的要求;步骤5:对进行样本扩充后得到的训练样本集进行软测量建模;选择高斯过程回归(GaussianProcessRegression,GPR)模型作为软测量模型;给定训练样本集X∈RD×N和y∈RN,其中X=[xi∈RD]i=1,…,N,y=[yi∈R]i=1,…,N分别代表D维的输入和输出数据;输入和输出之间的关系由式(5)产生:y=f(x)+ε(5)其中,f是未知函数形式;对于一个新的输入x*,相应的概率预测输出y*的均值和方差如式(7)和式(8)所示:y*(x*)=cT(x*)C-1y(7)式中,c(x*)=[c(x*,x1),…,c(x*,xn)]T是训练数据和测试数据之间的协方差矩阵,是训练数据之间的协方差矩阵,I是N×N维的单位矩阵,c(x*,x*)是测试数据的自协方差;根据协方差函数把输出间的相关关系转化成输入数据之间的函数关系,所述协方差函数选择高斯协方差函数:式中,v为控制协方差的量度,ωd代表每个成分xd的相对重要性;对式(8)中的未知参数v,ω1,…,ωD和高斯噪声方差的估计,通过极大似然估计(MaximumLikelihoodEstimation,MLE)得到参数计算参数θ的值包括,将参数θ通过MLE方法进行估计;用共轭梯度法得到优化参数;步骤6:在获得最优参数θ后,对测试样本x*,采用式(7)和式(8)估计GPR模型的输出值。可选的,通过分析数据的分布特征来确定样本扩充的区间范围,利用扩充数据完善建模对象在各阶段的信息,进一步重构建模数据集。所述一种基于数据分布的小样本扩充方法可应用于包含可逆反应的过程,如生物发酵,污水处理,化工生产等领域。本专利技术有益效果是:通过分析实际的工业过程,得到数据的分布特征,然后再对已有的小样本进行分组和辅助变量的归一化处理,在数据信息不充足的子区间内,利用欧氏距离和角度原则,选择相似样本进行小样本扩充,使得重构的样本集可以更加全面的表征模型各阶段的信息,从而提升了所建模型的预测精度。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是勒夏特列原理图;图2是丁烷浓度与样本个数关系图;图3是是生化需氧量指标与样本个数关系图;图4是小样本扩充的流程图;图5是均方根误差对比图;图6是脱丁烷塔过程的传统GPR模型预测图;图7是脱丁烷塔过程的小样本扩充后GPR模型预测图;图8是污水处理过程传统GPR模型预测图;图9是污水处理过程小样本扩充后GPR模型预测图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。实施例一:步骤1:对工业过程本文档来自技高网...

【技术保护点】
1.一种基于数据分布的小样本扩充方法,其特征在于,所述方法包括:步骤1:对工业过程数据进行归一化处理,即令x'=(x‑xmin)/(xmax‑xmin),其中x为原始训练样本,x'为归一化处理后的训练样本,xmin和xmax分别为原始训练样本集中的最小值与最大值,所述工业过程数据的原始训练样本符合期望为μ、标准差为σ的对数正态分布;步骤2:计算原始训练样本中每个ln(Yk)的值(其中k=1,…,m),m为原始训练样本数,并找到原始训练样本中主导变量的最大值Ymax和最小值Ymin;所述主导变量为需要预测的变量;步骤3:根据正态分布的3σ原则,将区间(μ‑3σ,μ+3σ)作为随机变量ln(Y)实际的取值区间,并且落在区间(μ‑3σ,μ‑2σ)、(μ‑2σ,μ‑σ)、(μ‑σ,μ)、(μ,μ+σ)、(μ+σ,μ+2σ)、(μ+2σ,μ+3σ)上的概率分别为2.1%、13.6%、34.1%、34.1%、13.6%、2.1%;令ln(Ymax)=μ+3σ,ln(Ymin)=μ‑3σ,将原始训练样本以主导变量的大小为分类标准,等距离划分为六组;步骤4:统计ln(Yk)在六个区间的样本个数,若区间内样本个数不少于理论的分配比率,即分别不少于2.1%、13.6%、34.1%、34.1%、13.6%、2.1%则不作处理;若区间内样本个数小于分配比率则进行样本扩充,扩充步骤如下:Step1:两两相互计算训练样本之间的相似度;数据之间相似度的计算方法如下:a,计算xq和xi之间的欧氏距离和角度:dqi=||xq,xi||2    (1)...

【技术特征摘要】
1.一种基于数据分布的小样本扩充方法,其特征在于,所述方法包括:步骤1:对工业过程数据进行归一化处理,即令x'=(x-xmin)/(xmax-xmin),其中x为原始训练样本,x'为归一化处理后的训练样本,xmin和xmax分别为原始训练样本集中的最小值与最大值,所述工业过程数据的原始训练样本符合期望为μ、标准差为σ的对数正态分布;步骤2:计算原始训练样本中每个ln(Yk)的值(其中k=1,…,m),m为原始训练样本数,并找到原始训练样本中主导变量的最大值Ymax和最小值Ymin;所述主导变量为需要预测的变量;步骤3:根据正态分布的3σ原则,将区间(μ-3σ,μ+3σ)作为随机变量ln(Y)实际的取值区间,并且落在区间(μ-3σ,μ-2σ)、(μ-2σ,μ-σ)、(μ-σ,μ)、(μ,μ+σ)、(μ+σ,μ+2σ)、(μ+2σ,μ+3σ)上的概率分别为2.1%、13.6%、34.1%、34.1%、13.6%、2.1%;令ln(Ymax)=μ+3σ,ln(Ymin)=μ-3σ,将原始训练样本以主导变量的大小为分类标准,等距离划分为六组;步骤4:统计ln(Yk)在六个区间的样本个数,若区间内样本个数不少于理论的分配比率,即分别不少于2.1%、13.6%、34.1%、34.1%、13.6%、2.1%则不作处理;若区间内样本个数小于分配比率则进行样本扩充,扩充步骤如下:Step1:两两相互计算训练样本之间的相似度;数据之间相似度的计算方法如下:a,计算xq和xi之间的欧氏距离和角度:dqi=||xq,xi||2(1)其中,Δxq=xq-xq-1,Δxi=xi-xi-1(3)b,如果cosθqi≥0,计算相似度系数sqi:式中,γ是介于0到1之间的权重系数,如果cosθqi<0,则丢弃数据(xi,yi),计算得到的sqi也...

【专利技术属性】
技术研发人员:熊伟丽毕略
申请(专利权)人:江南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1