【技术实现步骤摘要】
一种用于发动机装配数据增强的过采样方法及系统
[0001]本专利技术涉及发动机装配数据分析
,特别是涉及一种用于发动机装配数据增强的过采样方法及系统。
技术介绍
[0002]在使用机器学习算法的时候需要有一定量的数据集作为模型训练支撑,如果样本稀疏问题严重,通常对源数据集进行数据增强,来对样本进行一定量的扩充。发动机的装配是一个复杂耗时的工作,装配时间长而且工序繁多,短时间内所能产生的装配样本数量极其有限。在对发动机装配数据进行分析时,由于样本量匮乏,往往无法有效地提取数据规律,这也是典型的小样本问题,需要通过数据增强对源数据集进行预处理。
[0003]过采样是研究人员实现数据增强的一种常用策略,而使用较多的方法之一是少数类样本合成过采样技术SMOTE算法。SMOTE过采样算法(SMOTE算法)是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,而SMOTE算法的基本思想是对样本进行分析后,以插值的方式,人工合成新样本添加到数据集中。以数据集中 ...
【技术保护点】
【技术特征摘要】
1.一种用于发动机装配数据增强的过采样方法,其特征在于,所述方法包括:获取源数据集;所述源数据集包括多个发动机装配样本以及与每个所述发动机装配样本对应的振动标签;所述发动机装配样本包括发动机装配过程中的所有装配工艺特征;所述振动标签包括振动超差和振动合格;利用SMOTE过采样算法对所述源数据集进行过采样,生成多个新发动机装配样本;以所有所述新发动机装配样本更新所述源数据集,得到第一样本集;所述第一样本集包括所述源数据集和所有所述新发动机装配样本;根据所述第一样本集和各所述新发动机装配样本,确定各第一待剔除样本;所述第一待剔除样本为造成样本类别边界模糊的所述新发动机装配样本;所述样本类别包括正样本和负样本;剔除所述第一样本集中所有所述第一待剔除样本,更新所述第一样本集,得到第二样本集;所述第二样本集包括剔除所有所述第一待剔除样本后的所述第一样本集;对所述第二样本集中所有所述新发动机装配样本根据不同的特征值进行随机切分,确定各第二待剔除样本;所述第二待剔除样本为数据点异常的所述新发动机装配样本;所述特征值为所述装配工艺特征的数据值;剔除所述第二样本集中所有所述第二待剔除样本,更新所述第二样本集,得到第三样本集;所述第三样本集包括剔除所有所述第二待剔除样本后的所述第二样本集。2.根据权利要求1所述的用于发动机装配数据增强的过采样方法,其特征在于,所述根据所述第一样本集和各所述新发动机装配样本,确定各第一待剔除样本,具体包括:对所述第一样本集中任意一个新发动机装配样本x
i
,计算所述第一样本集中每一个样本x
j
与所述新发动机装配样本x
i
之间的欧氏距离d(x
i
,x
j
);所述样本x
j
为所述发动机装配样本或所述新发动机装配样本;当同时满足第一条件、第二条件和第三条件时,确定(x
i
,x
j
)为造成样本类别边界模糊的样本对,x
i
和x
j
均为第一待剔除样本;所述第一条件为所述第一样本集中不存在样本x
l
使得d(x
l
,x
i
)<d(x
i
,x
j
)或者d(x
l
,x
j
)<d(x
i
,x
j
)成立;所述第二条件为x
i
和x
j
属于不同样本类别;所述第三条件为所述样本x
j
为所述新发动机装配样本;其中d(x
l
,x
i
)为所述样本x
l
与所述新发动机装配样本x
i
之间的欧氏距离;d(x
l
,x
j
)为所述样本x
l
与所述样本x
j
之间的欧氏距离。3.根据权利要求1所述的用于发动机装配数据增强的过采样方法,其特征在于,所述对所述第二样本集中所有所述新发动机装配样本根据不同的特征值进行随机切分,确定各第二待剔除样本,具体包括:从所述第二样本集中所述新发动机装配样本的所有所述装配工艺特征中随机获取一个所述装配工艺特征;获取所述第二样本集中所有所述新发动机装配样本的各所述装配工艺特征的数据值;根据所有所述数据值确定数据值最大值与数据值最小值;在所述数据值最大值与所述数据值最小值之间随机取一个中间值;根据所述中间值对所述第二样本集中的所有所述新发动机装配样本进行二叉切分,确定各第二待剔除样本。4.根据权利要求3所述的用于发动机装配数据增强的过采样方法,其特征在于,所述根
据所述中间值对所述第二样本集中的所有所述新发动机装配样本进行二叉切分,确定各第二待剔除样本,具体包括:将所述装配工艺特征的数据值小于所述中间值的所述新发动机装配样本划分到第一切分样本集中,将所述装配工艺特征的数据值大于等于所述中间值的所述新发动机装配样本划分到第二切分样本集中;对所述第一切分样本集和所述第二切分样本集分别重复执行所述二叉切分,直到将每一个所述新发动机装配样本均切分出来,得到一棵以单个所述新发动机装配样本作为叶子节点的二叉树;判断当前所述二叉树是否为第N棵所述二叉树;其中N为大于1的正整数;若当前所述二叉树为第N棵所述二叉树,则统计每个所述新发动机装配样本在所有所述二叉树中的深度的平均值;按所述平均值由小到大对所述新发动机装配样本进行排序,得到排序结果;确定所述排序结果中排序位置位于前10%的所述新发动机装配样本为所有第二待剔除样本。5.根据权利要求4所述的用于发动机装配数据增强的过采样方法,其特征在于,所述根据所述中间值对所述第二样本集中的所有所述新发动机装配样本进行二叉切分,确定各第二待剔除样本,还包括:若当前所述二叉树不为第N棵所述二叉树,则返回步骤“从所述第二样本集中所述新发动机装配样本的所有所述装配工艺特征中随机获取一个所述装配工艺特征”。6.一种用于发动机装配数据增强的过采样系统,其特征在于,所述系统包括:源数据集获取模块,...
【专利技术属性】
技术研发人员:袁伟伟,李珍岩,蒲一民,杨希英,
申请(专利权)人:北京动力机械研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。