样本增强方法、模型训练方法及系统技术方案

技术编号:30138151 阅读:21 留言:0更新日期:2021-09-23 14:53
本发明专利技术公开一种样本增强方法、模型训练方法及系统,涉及数据处理技术领域,可提升样本数据的数量和质量,并减少样本生成时间。该样本增强方法包括:划分变量为独立变量、部分关联变量和剩余关联变量;独立变量数据随机生成,根据独立变量数据和指定公式计算部分关联变量数据,以上述两类数据作为输入,采用简化模型计算获取剩余关联变量数据;将上述三类数据合并作为严格机理模型模拟样本输入数据。根据欧式距离将所述样本输入数据分成多个子样本集,对各子样本集中的样本排序,按照样本顺序,利用严格机理模型依次进行分步模拟,获取样本输出数据,与相应的样本输入数据合并,获得完整样本数据。通过样本可视化样本分布,补充稀疏区域的样本。充稀疏区域的样本。充稀疏区域的样本。

【技术实现步骤摘要】
样本增强方法、模型训练方法及系统


[0001]本专利技术涉及数据处理
,尤其涉及一种样本增强方法、模型训练方法及系统。

技术介绍

[0002]随着工业大数据时代的来临,基于数据驱动的建模方法在现代流程工业中的研究和应用引起了广泛关注。
[0003]近些年,流程工业在信息化方面持续不断投入,在线仪表、分析设备不断投用,积累了海量的生产过程数据,为数据驱动的建模方法的应用打下了良好的数据基础;大数据、深度学习等技术快速发展提供了丰富高效的算法,并且不断进步,GPU、TPU等智能芯片性能不断提升,为数据驱动建模的大规模行业应用打下了技术基础。
[0004]虽然生产数据多,但由于装置操作变化较小,导致数据多样性少。另外数据分布不均衡,存在大量数据缺失或数据质量不高的区域。为了使模型能尽可能的覆盖最优操作区域且能准确反映装置的实时特性,需要扩大数据覆盖范围和均匀数据分布密度。
[0005]针对此需求,普遍采用严格机理模型模拟的方法对数据进行扩充。在此过程中,因为数据量大,所以通常采用随机产生数据的方法产生模拟所需的输入数据。对于流程复杂的装置,这种方法存在模拟收敛率低、生产足量样本耗时长的问题,另外数据分布不一定均匀。

技术实现思路

[0006]本专利技术的目的在于提供一种适用于炼油和化工装置的样本增强方法、模型训练方法及系统,能够提升样本数据的数量和质量,同时降低时间成本。
[0007]为了实现上述目的,本专利技术的第一方面提供一种样本增强方法,包括:
[0008]将变量划分为独立变量、部分关联变量和剩余关联变量;
[0009]根据历史生产数据中每种变量对应的历史数据,获取每种变量对应的历史数据分布范围;
[0010]在每个独立变量对应的分布范围内随机生成多个随机数据,根据独立变量对应的随机数据计算出部分关联变量对应的中间数据,然后采用预先训练完成的简化模型以随机数据和中间数据作为输入计算并判断计算结果是否收敛,并在收敛时获取剩余关联变量对应的剩余数据;
[0011]将随机数据、中间数据和剩余数据整理合并成作为后续模拟的输入数据;
[0012]采用欧式距离对输入数据进行聚类得到多组子样本集,所述子样本集中包括多个样本,并对每组所述子样本集中的样本进行排序;
[0013]通过预先训练完成的严格机理模型,对每个子样本集中的样本按照顺序批量、分步进行模拟计算,得到输出数据;
[0014]汇总并合并各样本的输入数据和对应的输出数据,得到通过样本增强获取的多个
完整样本数据;
[0015]对获取的多个样本数据的分布范围进行可视化分析,并对稀疏区域的样本进行补充。
[0016]优选地,根据历史生产数据中每种变量对应的历史数据,获取每种变量对应的历史数据分布范围的方法包括:
[0017]统计历史生产数据中每种变量对应的历史数据的上下限,并将上下限的范围作为对应变量的历史数据分布范围。
[0018]优选地,在每个独立变量对应的分布范围内随机生成多个随机数据的方法包括:
[0019]基于每个独立变量对应的读取数据分布范围均匀的随机生成多个随机数据。
[0020]较佳地,根据独立变量对应的随机数据计算出部分关联变量对应的中间数据的方法包括:
[0021]基于每个独立变量对应的随机数据,采用相关性分析方法分析历史生产数据中的部分关联变量与独立变量间数据的相关性,获取部分关联变量与独立变量的两两相互影响关系,得到部分关联变量与独立变量的关系式;
[0022]根据关系式,将独立变量的随机数据作为输入计算对应部分关联变量的中间数据;
[0023]将属于同一组的部分关联变量的中间数据与独立变量的随机数据合并共同作为同一组的输入数据。
[0024]进一步地,采用预先训练完成的简化模型以随机数据和中间数据作为输入计算并判断计算结果是否收敛,并在收敛时获取剩余关联变量对应的剩余数据的方法包括:
[0025]采用预先训练的简化模型对包括随机数据和中间数据的输入数据进行模拟,若模拟结果为收敛则认为该组输入数据为有效样本数据,并将模拟结果作为剩余关联变量对应的剩余数据,若模拟结果为不收敛则认为该组输入数据为无效样本数据,则对输入数据进行剔除;
[0026]将属于同一组的剩余关联变量对应的剩余数据与部分关联变量以及独立变量的输入数据合并共同作为严格机理模型的同一组的输入数据。
[0027]进一步地,通过预先训练完成的严格机理模型,对每个子样本集中的样本按照顺序批量、分步进行模拟计算得到输出数据的方法包括:
[0028]将子样本集分配给不同模拟节点,每个模拟节点采用相同的预先训练完成的严格机理模型对输入数据进行计算,每个模拟节点按照接收样本集中的样本顺序,对样本输入数据进行计算并判断输出结果是否收敛;
[0029]若收敛则将输出数据保存于第一收敛样本中,若未收敛则对相应的输入数据进行改造调整后重新输入严格机理模型,并将收敛的输出数据保存于第二收敛样本中;
[0030]将第一收敛样本与第二收敛样本合并得到剩余仪表对应的输出数据;
[0031]其中,若收敛则将输出数据保存于第一收敛样本之后还包括:对样本数据进行能量平衡验证,若验证结果为能量平衡则确认为收敛将输出数据保存于第一收敛样本中,若验证结果为能量不平衡则所述输出数据视为未收敛。
[0032]进一步地,基于预先训练完成的严格机理模型,将一个样本进行分步模拟的方法包括:
[0033]将输入数据中的全部变量划分为第一类、第二类和第三类,所述每一类中至少包括一个变量;将模拟计算分为两大步,第一大步包括第一类和第二类变量的数据替换和计算,第二大步包括第三类变量的数据替换和计算;
[0034]采用预先通过严格机理模型模拟成功的工况作为基础工况,所述基础工况中包括基础输入数据;
[0035]将每组输入数据中的变量与基础输入数据对应划分为第一类、第二类和第三类,并将输入数据中的样本数据作为目标值;
[0036]将所述基础输入数据中与第一类变量对应的数据替换为输入数据中对应的目标值;
[0037]同时,将所述基础输入数据中与第二类变量对应的数据按规则进行替换,若当前目标值相对于基础数据的变化方向不影响收敛,则以当前目标值对基础输入数据进行一次替换,否则需将第二类变量分步替换,从基础输入数据开始按照预设步长向目标值方向进行逐步调整,每替换一次第二类变量,运行一次模拟计算,每次替换是在上次计算的基础上进行,直至第二类变量全部达到预设的约束条件或目标值或者模拟不收敛,停止第一大步计算;
[0038]以第一大步计算后的数据为基础,将输入数据中与第三类变量对应的样本数据作为目标值,以基础输入数据与第三类变量对应的数据作为基础,按照预设步长逐步调整并替换后输入严格机理模型进行计算,直至所有的第三类变量对应的数据达到预设的约束条件或目标值后或者模拟不收敛,停止第二大步模拟计算。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本增强方法,其特征在于,包括:将变量划分为独立变量、部分关联变量和剩余关联变量;根据历史生产数据中每种变量对应的历史数据,获取每种变量对应的历史数据分布范围;在每个独立变量对应的分布范围内随机生成多个随机数据,根据独立变量对应的随机数据计算出部分关联变量对应的中间数据,然后采用预先训练完成的简化模型以随机数据和中间数据作为输入计算并判断计算结果是否收敛,并在收敛时获取剩余关联变量对应的剩余数据;将随机数据、中间数据和剩余数据整理合并成作为后续模拟的输入数据;采用欧式距离对输入数据进行聚类得到多组子样本集,所述子样本集中包括多个样本,并对每组所述子样本集中的样本进行排序;通过预先训练完成的严格机理模型,对每个子样本集中样本按照顺序进行分步模拟计算,得到样本的输出数据;汇总并合并各样本的输入数据和对应的输出数据,得到通过样本增强获取的多个完整样本数据;对获取的多个样本数据的分布范围进行可视化分析,并对稀疏区域的样本进行补充。2.根据权利要求1所述的方法,其特征在于,根据历史生产数据中每种变量对应的历史数据,获取每种变量对应的历史数据分布范围的方法包括:统计历史生产数据中每种变量对应的历史数据的上下限,并将上下限的范围作为对应变量的历史数据分布范围。3.根据权利要求1所述的方法,其特征在于,在每个独立变量对应的分布范围内随机生成多个随机数据的方法包括:基于每个独立变量对应的读取数据分布范围均匀的随机生成多个随机数据。4.根据权利要求3所述的方法,其特征在于,根据独立变量对应的随机数据计算出部分关联变量对应的中间数据的方法包括:基于每个独立变量对应的随机数据,采用相关性分析方法分析历史生产数据中的部分关联变量与独立变量间数据的相关性,获取部分关联变量与独立变量的两两相互影响关系,得到部分关联变量与独立变量的关系式;根据关系式,将独立变量的随机数据作为输入计算对应部分关联变量的中间数据;将属于同一组的部分关联变量的中间数据与独立变量的随机数据合并共同作为同一组的输入数据。5.根据权利要求4所述的方法,其特征在于,采用预先训练完成的简化模型以随机数据和中间数据作为输入计算并判断计算结果是否收敛,并在收敛时获取剩余关联变量对应的剩余数据的方法包括:采用预先训练的简化模型对包括随机数据和中间数据的输入数据进行模拟,若模拟结果为收敛则认为该组输入数据为有效样本数据,并将模拟结果作为剩余关联变量对应的剩余数据,若模拟结果为不收敛则认为该组输入数据为无效样本数据,则对输入数据进行剔除;将属于同一组的剩余关联变量对应的剩余数据与部分关联变量以及独立变量的输入
数据合并共同作为严格机理模型的同一组的输入数据。6.根据权利要求5所述的方法,其特征在于,通过预先训练完成的严格机理模型,对每个子样本集中的样本按照顺序进行分步模拟计算得到输出数据的方法包括:将子样本集分配给不同模拟节点,每个模拟节点采用相同的预先训练完成的严格机理模型对输入数据进行计算,每个模拟节点按照接收样本集中的样本顺序,对样本输入数据进行计算并判断输出结果是否收敛;若收敛则将输出数据保存于第一收敛样本中,若未收敛则对相应的输入数据进行改造调整后重新输入严格机理模型,并将收敛的输出数据保存于第二收敛样本中;将第一收敛样本与第二收敛样本合并得到剩余仪表对应的输出数据;其中,若收敛则将输出数据保存于第一收敛样本...

【专利技术属性】
技术研发人员:王士波陈露吴永文甘雪琴郑欢欢胡益炯宋菲
申请(专利权)人:北京宜能高科科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1