当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于机械产品历史数据的虚拟样本扩容方法技术

技术编号:22884306 阅读:45 留言:0更新日期:2019-12-21 07:25
本发明专利技术公开了一种基于机械产品历史数据的虚拟样本扩容方法,首先根据实测历史数据确定了小样本问题中虚拟样本的虚拟样本容量;接着基于机械生产的历史数据及机械生产相关先验知识,构建了用于产生虚拟样本的样本池;然后基于“轮盘赌”抽样思想进行样本采样,基于代理模型思想与雅可比旋量理论设计了虚拟样本生成规则;最后通过样本合理性判定条件保留可行的扩容样本,由此实现了用于机械装配精度预测的小样本回归问题训练虚拟样本扩容。本发明专利技术成果可用于小容量样本机器学习训练模型样本容量扩充,可解决机械装配精度预测中遇到的样本数量不足的问题,对利用机器学习回归方法研究定制产品公差传递的小样本问题具有重要意义。

A method of virtual sample expansion based on historical data of mechanical products

【技术实现步骤摘要】
一种基于机械产品历史数据的虚拟样本扩容方法
本专利技术涉及一种虚拟样本扩容方法,具体涉及一种基于机械产品历史数据的虚拟样本扩容方法。
技术介绍
基于大样本数据的机器学习技术已在不同领域得到了广泛应用。随着智能制造概念的提出,机器学习技术与机械领域的结合也日趋紧密。然而随着机械设计及制造水平的不断提高,机械产品出现设计需求多样化、非标化及个性化定制生产的趋势,从而导致部分机械领域问题不再具备产生大容量样本数据的条件,进而限制了机器学习技术的应用。目前在机械领域机器学习多局限于图像识别、信号辨识等样本数量充足的应用场景。且多数情况下为目标识别等分类问题。传统机械设计相关领域小容量样本的机器学习回归问题尚未得到充分重视。目前公差传递研究多采用公差分析方法,此类方法多以线性传递模型进行公差传递研究,并不考虑非线性误差。机器学习技术的引入有助于改善这一现状。复杂机械产品多为小批量个性化定制生产,在产品的装配精度预测与偏差控制过程中必然面对小样本问题。目前利用虚拟样本扩容技术的机械领域相关研究多局限于样本标签明确或易于获得的应用场景,比如单体小样本生成。回归类问题的虚拟样本生成方法研究较少。针对机械产品装配精度预测而言,实际加工中影响零件质量的因素多种多样。生产设备精度、人员操作因素以及生产固有“噪声”等因素导致了不同厂家生产的零件尺寸服从某一特定概率分布。目前研究多采用高斯分布近似代替实际产品尺寸分布模型。产生的数据样本与实际生产情况可能并不一致。因此引入研究问题的历史数据,并通过虚拟样本生成方法进行扩充,有助于引入机械领域先验知识。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种基于机械产品历史数据的虚拟样本扩容方法。本专利技术的目的是通过以下技术方案来实现的:一种基于机械产品历史数据的虚拟样本扩容方法,包括以下步骤:(1)读取机械产品的历史数据作为原始训练集D中样本,包括输入特征和输出特征;根据原始训练集D获取潜在参数,包括虚拟样本容量n′和初始化候选样本库容量nDc′;所述输入特征为尺寸公差、形状公差和位置公差;所述输出特征为装配精度;所述原始训练集D={(x1,y1),(x2,y2)...,(xn,yn)};其中,n为样本数量,xi是d维输入特征,yi为输出特征,yi为一维向量,i=1~n。所述虚拟样本容量n′的取值范围为n×22≤n′≤n×2d;所述初始化候选样本库容量nDc′=n′;(2)基于步骤(1)得到的原始训练集D中特征分布规律,对原始训练集D进行分组复制扩充,得到样本池Dp,包括以下子步骤:(2.1)确定样本集合Gk:根据步骤(1)得到的输出特征yi数值大小的分布将其划分成K个区间(gk-1,gk],通过下式计算区间端点gk:其中,k=1,2,...,K;ymin为输出特征yi的最小值,ymax为输出特征yi的最大值;当k=1时,第1个区间为(g0,g1],其中g0=ymin;相应地,根据下式将原始训练集D分为K组,得到样本集合Gk:k=1时,G1={Di|g0≤yi≤g1,i=1,2,...,n}k=2,3,...,K时,Gk={Di|gk-1<yi≤gk,i=1,2,...,n}其中,Di为原始训练集D中第i个样本;(2.2)确定样本的扩充数量n′k:对步骤(2.1)得到的样本集合Gk各组中样本分别进行复制,将各组样本集合Gk的样本数量nk扩充为原来的倍,得到扩充样本集合G′k;其中,nk是各组样本集合Gk中的样本数量;(2.3)将步骤(2.2)得到的扩充样本集合G′k的各组样本共同构成样本池Dp;(3)从步骤(2.3)得到的样本池Dp中随机采样,基于代理模型、雅可比旋量理论设计虚拟样本生成规则,对选中样本进行样本扩容操作,所有扩容操作后得到的候选虚拟样本构成候选虚拟样本库Dc′,包括以下子步骤:(3.1)输入特征的偏移:从样本池Dp中随机抽取一个样本(xp,yp),通过输入特征偏移操作产生虚拟输入x′p=xp±Δ,其中正负随机确定,偏移量Δ由下式确定:(3.2)基于雅可比旋量理论构造响应模型J(x′p):根据机械产品装配体装配情况,在各公差的几何中心构建局部坐标系,响应模型J(x′p)根据下式确定:其中,F为局部坐标系个数;为雅可比矩阵,为公差旋量。(3.3)输出特征的生成:基于代理模型构造虚拟输出y′p,构造方法为:y′p=J(x′p)+εp其中,εp为高斯随机噪声;(3.4)通过下式计算得到一组候选虚拟样本(x′p,y′p):(3.5)重复执行步骤(3.1)~(3.4),直至候选虚拟样本数量达到步骤(1)获取的初始化候选样本库容量nDc′,构成候选虚拟样本库Dc′。(4)对步骤(3.5)构成的候选虚拟样本库Dc′进行样本合理性筛选,保留满足样本合理性判定条件的候选虚拟样本作为虚拟扩容样本,包括以下子步骤:(4.1)从步骤(3.5)构成的候选虚拟样本库Dc′中随机抽取nm组候选虚拟样本与步骤(1)得到的原始训练集D混合得到混合样本Dm;(4.2)制定合理性判定指标和条件:合理性判定指标Pd(·)包括样本均值E(·)、样本方差σ2(·)、样本偏度Skew(·)、样本峰度Kurt(·),表示为:Pd(·)={E(·),σ2(·),Skew(·),Kurt(·)}合理性判定条件为:Pd(Dm)≥ξPd(D)其中,ξ为置信度;(4.3)对步骤(4.1)得到的混合样本Dm根据步骤(4.2)制定的合理性判定条件进行合理性判定,得到虚拟扩容样本,包括以下两种情况:(4.3.1)如果混合样本Dm的合理性判定指标Pd(·)满足步骤(4.2)中的合理性判定条件,则保留步骤(4.1)抽取的nm组候选虚拟样本,作为虚拟扩容样本;(4.3.2)如果混合样本Dm的合理性判定指标Pd(·)不满足合理性判定条件,将步骤(4.1)抽取的nm组候选虚拟样本放回候选虚拟样本库Dc′;(4.4)重复执行步骤(4.1)~(4.3),继续获得虚拟样本容量n′;当保留的虚拟扩容样本数量达到步骤(1)获取的虚拟样本容量n′,或者连续三次筛选未能产生新的虚拟扩容样本,则停止抽取;(5)判断保留的虚拟扩容样本数量是否达到步骤(1)获取的虚拟样本容量n′,得到虚拟样本集合,包括以下两种情况:(5.1)如果步骤(4)保留的虚拟扩容样本数量M达到虚拟样本容量n′,则完成虚拟样本扩容,得到虚拟样本集合;(5.2)如果步骤(4)保留的虚拟扩容样本数量M未达到虚拟样本容量n′,更新候选样本库容量为nDc′=n′-M,并跳转到步骤(3)构成新的候选虚拟样本库Dc′,继续获得虚拟扩容样本,补充不足的部分。进一步地,所述步骤(1)中的尺寸公差包括基本尺寸、尺寸偏差。进一步地,所述步骤(1)中的形状公差包括直本文档来自技高网
...

【技术保护点】
1.一种基于机械产品历史数据的虚拟样本扩容方法,其特征在于,包括以下步骤:/n(1)读取机械产品的历史数据作为原始训练集D中样本,包括输入特征和输出特征;根据原始训练集D获取潜在参数,包括虚拟样本容量n′和初始化候选样本库容量n

【技术特征摘要】
1.一种基于机械产品历史数据的虚拟样本扩容方法,其特征在于,包括以下步骤:
(1)读取机械产品的历史数据作为原始训练集D中样本,包括输入特征和输出特征;根据原始训练集D获取潜在参数,包括虚拟样本容量n′和初始化候选样本库容量nDc′。
所述输入特征为尺寸公差、形状公差和位置公差。
所述输出特征为装配精度。
所述原始训练集D={(x1,y1),(x2,y2)...,(xn,yn)};其中,n为样本数量,xi是d维输入特征,yi为输出特征,yi为一维向量,i=1~n;
所述虚拟样本容量n′的取值范围为n×22≤n′≤n×2d;
所述初始化候选样本库容量nDc′=n′;
(2)基于步骤(1)得到的原始训练集D中特征分布规律,对原始训练集D进行分组复制扩充,得到样本池Dp,包括以下子步骤:
(2.1)确定样本集合Gk:根据步骤(1)得到的输出特征yi数值大小的分布将其划分成K个区间(gk-1,gk],通过下式计算区间端点gk:



其中,k=1,2,...,K;ymin为输出特征yi的最小值,ymax为输出特征yi的最大值;当k=1时,第1个区间为(g0,g1],其中g0=ymin;相应地,根据下式将原始训练集D分为K组,得到样本集合Gk:
k=1时,G1={Di|g0≤yi≤g1,i=1,2,...,n}
k=2,3,...,K时,Gk={Di|gk-1<yi≤gk,i=1,2,...,n}
其中,Di为原始训练集D中第i个样本;
(2.2)确定样本的扩充数量n′k:对步骤(2.1)得到的样本集合Gk各组中样本分别进行复制,将各组样本集合Gk的样本数量nk扩充为原来的倍,得到扩充样本集合G′k;其中,nk是各组样本集合Gk中的样本数量;
(2.3)将步骤(2.2)得到的扩充样本集合Gk′的各组样本共同构成样本池Dp;
(3)从步骤(2.3)得到的样本池Dp中随机采样,基于代理模型、雅可比旋量理论设计虚拟样本生成规则,对选中样本进行样本扩容操作,所有扩容操作后得到的候选虚拟样本构成候选虚拟样本库Dc′,包括以下子步骤:
(3.1)输入特征的偏移:从样本池Dp中随机抽取一个样本(xp,yp),通过输入特征偏移操作产生虚拟输入x′p=xp±Δ,其中正负随机确定,偏移量Δ由下式确定:



(3.2)基于雅可比旋量理论构造响应模型J(x′p):根据机械产品装配体装配情况,在各公差的几何中心构建局部坐标系,响应模型J(x′p)根据下式确定:



其中,F为局部坐标系个数;为雅可比矩阵,为公差旋量;
(3.3)输出特征的生成:基于代理模型构造虚拟输出y′p,构造方法为:
y′p=J(x′p)+εp
其中,εp为高斯随机噪声;
(3.4)通过下式计算得到一组候选虚拟样本(x′p,y′p):



(3.5)重复执行步骤(3.1)~(3.4),直至候选虚拟样本数量达到步骤(1)获取的初始化候选样本库容量nDc′,构成候选虚拟样本库Dc′;
(4)对步骤(3.5)构成的候选虚拟样本库Dc′进行样本合理性筛选,保留满足样本合理性判定条件的候选虚拟样本作为虚拟扩容样本,包括以下子步骤:
(4.1)从步骤(3.5)构成的候选虚拟样本库Dc′中随机抽...

【专利技术属性】
技术研发人员:裘乐淼李恒张树有王自立谭建荣
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1