一种压铸参数数据集生成方法及设备技术

技术编号：40192098 阅读：12 留言：0更新日期：2024-01-26 23:54

本申请涉及数据生成技术领域，尤其涉及一种压铸参数数据集生成方法及设备，方法包括：基于Borderline‑SMOTE算法生成压铸参数样本数据；使压铸参数样本数据替换随机数样本作为GAN网络的输入；训练GAN网络，使GAN网络根据压铸参数样本数据生成压铸参数数据集。由于Borderline‑SMOTE算法在生成样本时更关注位于类别边界附近的数据点，这会导致生成的合成样本过于集中在边界附近，从而限制了生成更多样化数据的能力，而本申请中的技术方案，结合了Borderline‑SMOTE算法和GAN算法，将Borderline‑SMOTE算法生成的压铸参数样本数据作为GAN网络的输入，使得最终生成的压铸参数数据集更倾向于接近决策边界，而不是集中在边界附近，使得最终生成的压铸参数数据集更多样化，更具有区分性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据生成，尤其涉及一种压铸参数数据集生成方法及设备。

技术介绍

1、在压铸工业中，确保产品质量和生产效率的关键因素之一是准确地分析和预测各种压铸参数的影响。然而，在压铸参数数据分析时，行业内面临一个普遍存在的问题，即样本不平衡问题。样本不平衡问题指的是在数据集中不同类别样本的数量分布不均衡。该问题可能导致分析模型过于关注数量较多的类别，而忽略了数量较少但同样重要的类别，并导致分析结果的不准确性，从而影响决策的科学性。

2、目前，现有研究提出了3类主要处理样本不平衡问题的方法：

3、1)数据级别解决方案(例如，随机欠采样、随机过采样和单边选择等)；

4、2)代价敏感方法(例如，代价敏感重采样和代价敏感集成等)；

5、3)集成算法(例如，boosting、bagging和随机森林等)；

6、在不同的数据级别解决方案中，过采样技术是最常用的，并且smote算法是研究人员最常采用的过采样算法，smote算法是一种综合采样人工合成数据算法,用于解决数据类别不平衡问题。但是现有的smote算法存在两个潜在的缺点：1.smote算法生成的合成样本通常在同一方向上，所以对于某些机器学习分类器而言，很难在主要类别和次要类别之间建立一个决策边界；2.smote算法倾向于生成大量噪声数据，这些数据通常与主要类别重叠。

7、现有技术中为了克服smote算法生成的噪声问题，提出了几种smote算法的扩展方法，例如支持向量机-smote算法和borderline-smote算

8、因此，无论是支持向量机-smote还是borderline-smot方法，在数据扩展后都存在创建多样化、正态分布数据且减少边缘化的局限性。

技术实现思路

1、为至少在一定程度上克服相关技术中的过采样方法在数据扩展后存在创建多样化、正态分布数据且减少边缘化的局限性的问题，本申请提供一种压铸参数数据集生成方法及设备。

2、本申请的方案如下：

3、根据本申请实施例的第一方面，提供一种压铸参数数据集生成方法，包括：

4、基于borderline-smote算法生成压铸参数样本数据；

5、使所述压铸参数样本数据替换随机数样本作为gan(generative adversarialnetwork,生成对抗网络)网络的输入；

6、训练gan网络，使gan网络根据所述压铸参数样本数据生成压铸参数数据集。

7、优选地，基于borderline-smote算法生成压铸参数样本数据，包括：

8、获取观测得到的少数类压铸参数实例和多数类压铸参数实例；

9、确定少数类压铸参数实例的安全性；

10、根据少数类压铸参数实例的安全性将少数类压铸参数实例划分为噪声实例、安全实例和危险实例，将噪声实例进行去除；

11、将多数类压铸参数实例和剩余的少数类压铸参数实例中均靠近邻域的实例分类为边界点实例；

12、在边界点实例中进行取样生成压铸参数样本数据。

13、优选地，所述方法还包括：

14、根据少数类压铸参数实例的近邻实例中的多数类实例分布情况确定所述少数类压铸参数实例的安全性。

15、优选地，所述方法还包括：

16、在生成压铸参数样本数据时，通过预设参数控制生成压铸参数样本数据的数量。

17、优选地，训练gan网络，包括：

18、使用minibatch梯度下降法训练gan网络。

19、优选地，使用minibatch梯度下降法训练gan网络，包括：

20、设定训练总次数n、样本抽取数量m、训练中辨别器的训练次数k；

21、获取真实样本分布数据；

22、从所述压铸参数样本数据抽取m个训练样本；

23、从所述真实样本分布数据中抽取m个真实样本；

24、将m个训练样本输入gan网络的生成器，生成m个待辨别样本；

25、将m个待辨别样本和m个真实样本输入gan网络的辨别器，根据辨别结果梯度更新损失函数；

26、根据更新后的损失函数更新gan网络的生成器和辨别器的参数；

27、执行循环，直至满足辨别器的训练次数k和训练总次数n。

28、根据本申请实施例的第二方面，提供一种压铸参数数据集生成设备，包括：

29、处理器和存储器；

30、所述处理器与存储器通过通信总线相连接：

31、其中，所述处理器，用于调用并执行所述存储器中存储的程序；

32、所述存储器，用于存储程序，所述程序至少用于执行如以上任一项所述的一种压铸参数数据集生成方法。

33、本申请提供的技术方案可以包括以下有益效果：本申请中的压铸参数数据集生成方法，包括：基于borderline-smote算法生成压铸参数样本数据；使压铸参数样本数据替换随机数样本作为gan网络的输入；训练gan网络，使gan网络根据压铸参数样本数据生成压铸参数数据集。由于borderline-smote算法在生成样本时更关注位于类别边界附近的数据点，这会导致生成的合成样本过于集中在边界附近，从而限制了生成更多样化数据的能力，而本申请中的技术方案，结合了borderline-smote算法和gan算法，将borderline-smote算法生成的压铸参数样本数据作为gan网络的输入，使得最终生成的压铸参数数据集更倾向于接近决策边界，而不是集中在边界附近，使得最终生成的压铸参数数据集更多样化，更具有区分性。

34、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

本文档来自技高网...

【技术保护点】

1.一种压铸参数数据集生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于Borderline-SMOTE算法生成压铸参数样本数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，训练GAN网络，包括：

6.根据权利要求5所述的方法，其特征在于，使用Minibatch梯度下降法训练GAN网络，包括：

7.一种压铸参数数据集生成设备，其特征在于，包括：

【技术特征摘要】

1.一种压铸参数数据集生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，基于borderline-smote算法生成压铸参数样本数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方...

【专利技术属性】
技术研发人员：刘帆，梁大维，罗海华，陈华登，容展升，
申请(专利权)人：广汽本田汽车有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人