样本增强方法、模型训练方法及系统技术方案

技术编号：30138151 阅读：21 留言：0更新日期：2021-09-23 14:53

本发明专利技术公开一种样本增强方法、模型训练方法及系统，涉及数据处理技术领域，可提升样本数据的数量和质量，并减少样本生成时间。该样本增强方法包括：划分变量为独立变量、部分关联变量和剩余关联变量；独立变量数据随机生成，根据独立变量数据和指定公式计算部分关联变量数据，以上述两类数据作为输入，采用简化模型计算获取剩余关联变量数据；将上述三类数据合并作为严格机理模型模拟样本输入数据。根据欧式距离将所述样本输入数据分成多个子样本集，对各子样本集中的样本排序，按照样本顺序，利用严格机理模型依次进行分步模拟，获取样本输出数据，与相应的样本输入数据合并，获得完整样本数据。通过样本可视化样本分布，补充稀疏区域的样本。充稀疏区域的样本。充稀疏区域的样本。

全部详细技术资料下载

【技术实现步骤摘要】
样本增强方法、模型训练方法及系统

[0001]本专利技术涉及数据处理
，尤其涉及一种样本增强方法、模型训练方法及系统。

技术介绍

[0002]随着工业大数据时代的来临，基于数据驱动的建模方法在现代流程工业中的研究和应用引起了广泛关注。
[0003]近些年，流程工业在信息化方面持续不断投入，在线仪表、分析设备不断投用，积累了海量的生产过程数据，为数据驱动的建模方法的应用打下了良好的数据基础；大数据、深度学习等技术快速发展提供了丰富高效的算法，并且不断进步，GPU、TPU等智能芯片性能不断提升，为数据驱动建模的大规模行业应用打下了技术基础。
[0004]虽然生产数据多，但由于装置操作变化较小，导致数据多样性少。另外数据分布不均衡，存在大量数据缺失或数据质量不高的区域。为了使模型能尽可能的覆盖最优操作区域且能准确反映装置的实时特性，需要扩大数据覆盖范围和均匀数据分布密度。
[0005]针对此需求，普遍采用严格机理模型模拟的方法对数据进行扩充。在此过程中，因为数据量大，所以通常采用随机产生数据的方法产生模拟所需的输入数据。对于流程复杂的装置，这种方法存在模拟收敛率低、生产足量样本耗时长的问题，另外数据分布不一定均匀。

技术实现思路

[0006]本专利技术的目的在于提供一种适用于炼油和化工装置的样本增强方法、模型训练方法及系统，能够提升样本数据的数量和质量，同时降低时间成本。
[0007]为了实现上述目的，本专利技术的第一方面提供一种样本增强方法，包括：
[0008...

【技术保护点】

【技术特征摘要】
1.一种样本增强方法，其特征在于，包括：将变量划分为独立变量、部分关联变量和剩余关联变量；根据历史生产数据中每种变量对应的历史数据，获取每种变量对应的历史数据分布范围；在每个独立变量对应的分布范围内随机生成多个随机数据，根据独立变量对应的随机数据计算出部分关联变量对应的中间数据，然后采用预先训练完成的简化模型以随机数据和中间数据作为输入计算并判断计算结果是否收敛，并在收敛时获取剩余关联变量对应的剩余数据；将随机数据、中间数据和剩余数据整理合并成作为后续模拟的输入数据；采用欧式距离对输入数据进行聚类得到多组子样本集，所述子样本集中包括多个样本，并对每组所述子样本集中的样本进行排序；通过预先训练完成的严格机理模型，对每个子样本集中样本按照顺序进行分步模拟计算，得到样本的输出数据；汇总并合并各样本的输入数据和对应的输出数据，得到通过样本增强获取的多个完整样本数据；对获取的多个样本数据的分布范围进行可视化分析，并对稀疏区域的样本进行补充。2.根据权利要求1所述的方法，其特征在于，根据历史生产数据中每种变量对应的历史数据，获取每种变量对应的历史数据分布范围的方法包括：统计历史生产数据中每种变量对应的历史数据的上下限，并将上下限的范围作为对应变量的历史数据分布范围。3.根据权利要求1所述的方法，其特征在于，在每个独立变量对应的分布范围内随机生成多个随机数据的方法包括：基于每个独立变量对应的读取数据分布范围均匀的随机生成多个随机数据。4.根据权利要求3所述的方法，其特征在于，根据独立变量对应的随机数据计算出部分关联变量对应的中间数据的方法包括：基于每个独立变量对应的随机数据，采用相关性分析方法分析历史生产数据中的部分关联变量与独立变量间数据的相关性，获取部分关联变量与独立变量的两两相互影响关系，得到部分关联变量与独立变量的关系式；根据关系式，将独立变量的随机数据作为输入计算对应部分关联变量的中间数据；将属于同一组的部分关联变量的中间数据与独立变量的随机数据合并共同作为同一组的输入数据。5.根据权利要求4所述的方法，其特征在于，采用预先训练完成的简化模型以随机数据和中间数据作为输入计算并判断计算结果是否收敛，并在收敛时获取剩余关联变量对应的剩余数据的方法包括：采用预先训练的简化模型对包括随机数据和中间数据的输入数据进行模拟，若模拟结果为收敛则认为该组输入数据为有效样本数据，并将模拟结果作为剩余关联变量对应的剩余数据，若模拟结果为不收敛则认为该组输入数据为无效样本数据，则对输入数据进行剔除；将属于同一组的剩余关联变量对应的剩余数据与部分关联变量以及独立变量的输入
数据合并共同作为严格机理模型的同一组的输入数据。6.根据权利要求5所述的方法，其特征在于，通过预先训练完成的严格机理模型，对每个子样本集中的样本按照顺序进行分步模拟计算得到输出数据的方法包括：将子样本集分配给不同模拟节点，每个模拟节点采用相同的预先训练完成的严格机理模型对输入数据进行计算，每个模拟节点按照接收样本集中的样本顺序，对样本输入数据进行计算并判断输出结果是否收敛；若收敛则将输出数据保存于第一收敛样本中，若未收敛则对相应的输入数据进行改造调整后重新输入严格机理模型，并将收敛的输出数据保存于第二收敛样本中；将第一收敛样本与第二收敛样本合并得到剩余仪表对应的输出数据；其中，若收敛则将输出数据保存于第一收敛样本...

【专利技术属性】
技术研发人员：王士波，陈露，吴永文，甘雪琴，郑欢欢，胡益炯，宋菲，
申请(专利权)人：北京宜能高科科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人