一种基于数据分布的小样本扩充方法技术

技术编号：19140238 阅读：22 留言：0更新日期：2018-10-13 08:41

本发明专利技术公开了一种基于数据分布的小样本扩充方法，属于复杂工业过程建模和软测量领域。在基于数据驱动理论的建模过程中，样本的数量会对所建模型的精度产生影响。针对训练样本数量较少导致模型信息缺失的问题，该方法通过分析数据的分布特征来确定样本扩充的区间范围，通过使用欧氏距离和角度原则进行数据扩充，利用扩充数据完善建模对象在各阶段的信息，并进一步重构建模数据集，能够对关键变量进行精确预测，从而提高产品质量，降低生产成本。

A small sample expansion method based on data distribution

The invention discloses a small sample expansion method based on data distribution, which belongs to the field of complex industrial process modeling and soft measurement. In the process of modeling based on data-driven theory, the number of samples will affect the accuracy of the model. Aiming at the problem of missing model information caused by the small number of training samples, this method determines the range of sample expansion by analyzing the distribution characteristics of data, expands the data by using Euclidean distance and angle principle, perfects the information of modeling object in each stage by using the extended data, and reconstructs the modeling data further. Set can accurately predict key variables, thereby improving product quality and reducing production costs.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于数据分布的小样本扩充方法
本专利技术涉及一种基于数据分布的小样本扩充方法，属于复杂工业过程建模和软测量领域。
技术介绍
在工业过程复杂性日益增加，控制要求不断提高的背景下，通常需要对一些无法或难以直接测量的质量变量进行监控。这些变量有的虽然可用在线分析仪表进行检测，但是价格昂贵，而且可靠性差、具有较大测量滞后，难以在实时检测中广泛的应用。为了解决这类变量的估计和控制问题，软测量技术得到了很大的发展。软测量的原理就是根据某种最优准则，通过选择一组与主导变量(被估计变量)相关的一组辅助变量，建立以辅助变量为输入，被估计变量的最优估计为输出的数学模型。在数据驱动的软测量建模中，需要通过训练样本来发掘模型对象的过程信息。在许多情况下一个完整工业过程是由多个子阶段组成的。由于各子阶段的特征信息是有差别的，所以在一些样本较少的实际情况中，有限的小样本难以准确的表征过程的整体信息，从而导致所建模型的预测效果会受到影响。现有的方法都只局限于提高样本质量或改进建模方法这两个方面，没有从样本数量的角度出发，来提升模型的泛化性能和预测精度。
技术实现思路
在一些样本较少的实际情况中，有限的小样本难以准确的表征过程的整体信息，从而导致主导变量估计不准确的问题，在此情况下，若对小样本数据进行某种选择性的扩充，可以使得扩充后样本更加全面的包含各阶段的特征信息。进一步利用重构的建模数据集进行建模，将会大大提高所建模型对主导变量的预测精度。本专利技术考虑小样本建模的情况，首先通过分析实际的工业过程，得到数据的分布特征，然后再对已有的小样本进行分组和辅助变量的归一化处理，在数据信息不充...

【技术保护点】
1.一种基于数据分布的小样本扩充方法，其特征在于，所述方法包括：步骤1：对工业过程数据进行归一化处理，即令x'＝(x‑xmin)/(xmax‑xmin)，其中x为原始训练样本，x'为归一化处理后的训练样本，xmin和xmax分别为原始训练样本集中的最小值与最大值，所述工业过程数据的原始训练样本符合期望为μ、标准差为σ的对数正态分布；步骤2：计算原始训练样本中每个ln(Yk)的值(其中k＝1,…,m)，m为原始训练样本数，并找到原始训练样本中主导变量的最大值Ymax和最小值Ymin；所述主导变量为需要预测的变量；步骤3：根据正态分布的3σ原则，将区间(μ‑3σ,μ+3σ)作为随机变量ln(Y)实际的取值区间，并且落在区间(μ‑3σ,μ‑2σ)、(μ‑2σ,μ‑σ)、(μ‑σ,μ)、(μ,μ+σ)、(μ+σ,μ+2σ)、(μ+2σ,μ+3σ)上的概率分别为2.1％、13.6％、34.1％、34.1％、13.6％、2.1％；令ln(Ymax)＝μ+3σ，ln(Ymin)＝μ‑3σ，将原始训练样本以主导变量的大小为分类标准，等距离划分为六组；步骤4：统计ln(Yk)在六个区间的样本个数，若区间...

【技术特征摘要】
1.一种基于数据分布的小样本扩充方法，其特征在于，所述方法包括：步骤1：对工业过程数据进行归一化处理，即令x'＝(x-xmin)/(xmax-xmin)，其中x为原始训练样本，x'为归一化处理后的训练样本，xmin和xmax分别为原始训练样本集中的最小值与最大值，所述工业过程数据的原始训练样本符合期望为μ、标准差为σ的对数正态分布；步骤2：计算原始训练样本中每个ln(Yk)的值(其中k＝1,…,m)，m为原始训练样本数，并找到原始训练样本中主导变量的最大值Ymax和最小值Ymin；所述主导变量为需要预测的变量；步骤3：根据正态分布的3σ原则，将区间(μ-3σ,μ+3σ)作为随机变量ln(Y)实际的取值区间，并且落在区间(μ-3σ,μ-2σ)、(μ-2σ,μ-σ)、(μ-σ,μ)、(μ,μ+σ)、(μ+σ,μ+2σ)、(μ+2σ,μ+3σ)上的概率分别为2.1％、13.6％、34.1％、34.1％、13.6％、2.1％；令ln(Ymax)＝μ+3σ，ln(Ymin)＝μ-3σ，将原始训练样本以主导变量的大小为分类标准，等距离划分为六组；步骤4：统计ln(Yk)在六个区间的样本个数，若区间内样本个数不少于理论的分配比率，即分别不少于2.1％、13.6％、34.1％、34.1％、13.6％、2.1％则不作处理；若区间内样本个数小于分配比率则进行样本扩充，扩充步骤如下：Step1：两两相互计算训练样本之间的相似度；数据之间相似度的计算方法如下：a，计算xq和xi之间的欧氏距离和角度：dqi＝||xq,xi||2(1)其中，Δxq＝xq-xq-1，Δxi＝xi-xi-1(3)b，如果cosθqi≥0，计算相似度系数sqi:式中，γ是介于0到1之间的权重系数，如果cosθqi<0，则丢弃数据(xi,yi)，计算得到的sqi也...

【专利技术属性】
技术研发人员：熊伟丽，毕略，
申请(专利权)人：江南大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人