【技术实现步骤摘要】
一种基于样方法和分位数回归的虚拟样本生成方法
[0001]本专利技术涉及化工预测
,尤其涉及一种基于样方法和分位数回归的虚拟样本生成方法。
技术介绍
[0002]化工过程存着这生产规模庞大、工艺流程复杂、原料种类繁多等特点,还要受到企业管理等的影响,因此进行流程建模对于自动处理流程异常和不规则事件是非常重要的。现代科学技术的发展以及存储设备的升级,使得大量数据可以存储下来,社会进入到了云时代。但要获得足够的代表性样本来建立模型以捕获常规运营和维护的内在特征还是很困难的。一方面,数据之间的小波动、数据获取的高成本或异常事件发生的可能性低等都大大减小了已获取样本的代表性。另一方面,数据的非线性、噪声、缺失值和不确定性使得可用于建模的数据样本数量少。因此,“大数据、小样本”问题依然突出。小样本问题指可以利用的样本数量少,通常少于30个,更进一步反映出的实质问题是信息不足,有限的样本无法对整个样本特征空间进行完整地刻画,对总体特征的表达不够。直接利用小样本进行建模会使得模型的精度和适用性都受到挑战。
[0003]小样本 ...
【技术保护点】
【技术特征摘要】
1.一种基于样方法和分位数回归的虚拟样本生成方法,其特征在于,包括:优势分析解析自变量相对于因变量的重要性,对输入空间划分样方,输入空间生成虚拟输入,高斯过程回归生成虚拟输出,根据分位数回归分析自变量对因变量的影响趋势,根据分位数回归筛选虚拟样本;所述优势分析解析自变量相对于因变量的重要性的步骤包括:对原始小样本数据集中的自变量和因变量进行优势分析,得到所述自变量相对于所述因变量的相对重要性;所述对输入空间划分样方的步骤包括:根据所述相对重要性与样方边长的正比关系,对所述输入空间进行样方划分,同时根据总样方数量控制划分结果,使得划分后的样方数量处于预设的范围之内;所述输入空间生成虚拟输入的步骤包括:根据划分的样方,在每个样方内对投影值进行笛卡尔积,生成虚拟输入,生成的笛卡尔积的各个投影的原始小样本的欧氏距离小于预设的数值;所述高斯过程回归生成虚拟输出的步骤包括:利用高斯过程回归,对所述原始小样本数据集进行建模,预测所述虚拟输入对应的虚拟输出;所述根据分位数回归分析自变量对因变量的影响趋势的步骤包括:利用线性分位数回归对所述原始小样本进行建模,分析所述自变量对所述因变量的影响趋势;所述根据分位数回归筛选虚拟样本的步骤包括:对生成的虚拟样本进行筛选,删除不符合所述自变量与所述因变量之间的相关关系的虚拟样本,留下的虚拟样本即为最终生成的虚拟样本。2.根据权利要求1所述的基于样方法和分位数回归的虚拟样本生成方法,其特征在于,所述优势分析解析自变量相对于因变量的重要性的步骤还包括:利用优势分析对所述自变量相对于所述因变量的重要性进行量化分析,将单个变量的相对重要性分为直接效应、总体效应和部分效应,所述直接效应为所述自变量对所述因变量的单独影响;所述总体效应为将所述自变量与其他所有自变量放在一起时,所述自变量对所述因变量的影响;所述部分效应为将所述自变量与其他部分自变量放在一起时,所述自变量对所述因变量的影响;根据所述直接效应、所述总体效应和所述部分效应的平均值计算每个自变量的相对重要性;对每个自变量的相对重要性进行比较。3.根据权利要求1所述的基于样方法和分位数回归的虚拟样本生成方法,其特征在于,所述对输入空间划分样方的步骤还包括:选取在输入空间中的最小欧氏距离dist
min
以及最小相对重要性imp
min
,根据所述最小欧氏距离和所述最小相对重要性之间的正比关系获得各个维度样方的划分;根据各个维度的原始样方边长l
i
和各个维度的原始样方总边长L
i
获得每个维度的样方分割数sample
i
,所述样方分割数的表达式如下:其中,所述原始样方边长l
i
和所述原始样方总边长L
i
的表达式如下:
L
i
=x
i,max-x
i,min
(i=0,1......n)将每个维度的样方分割...
【专利技术属性】
技术研发人员:朱群雄,朱梅玉,贺彦林,徐圆,张洋,
申请(专利权)人:北京化工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。