基于SMT质量大数据的高维特征重构与融合方法技术

技术编号:38581844 阅读:19 留言:0更新日期:2023-08-26 23:26
本发明专利技术公开一种基于SMT质量大数据的高维特征重构与融合方法,主要解决现有技术中数据利用率低,特征维数过少和预测模型准确率低的问题。其实现方案为:对SMT产线文本数据集及结构化数据集进行预处理;构建并训练文本数据特征提取模型,得到文本数据提取特征;构建结构化数据特征提取模型,得到结构化数据提取特征;合并及去重文本数据和结构化数据提取的特征;采用堆栈式自编码器及基于均方误差与平均绝对百分比误差结合的方法对所提取的特征进行重构与融合。本发明专利技术提高了SMT企业数据的利用率,实现了文本数据与结构化数据的融合,数据维度提升到了50维以上,提高了模型的准确率,可用于对SMT产线质量大数据的多模态数据处理。处理。处理。

【技术实现步骤摘要】
基于SMT质量大数据的高维特征重构与融合方法


[0001]本专利技术属于物理
,更进一步涉及一种高维特征重构与融合方法,可用于对SMT产线质量大数据的多模态数据处理。
技术背景
[0002]电子制造企业在生产中积累了大量的文本数据及结构化数据,但均孤立存在,目前SMT产线智能决策算法方面大多只利用到了结构化数据,尚未考虑将文本数据融合到算法中,其中的潜在价值多被忽略,并且当前特征的维度大多在20维以下,未能考虑到高维非线性特征在算法方面的重要作用。充分挖掘文本数据的价值,实现对于文本数据与结构化数据的重构与融合对于SMT产线工艺改善和产品质量提升具有重要意义。利用实体识别、实体抽取技术、图卷积神经网络技术可以实现对于文本数据的特征提取,借助数据挖掘技术可以实现结构化数据的特征提取,堆栈式自编码器实现文本数据与结构化数据的特征融合。
[0003]江苏达科数智技术有限公司在其申请号为202310045129.3的专利文献公开了一种“适用于系统安全运维的数据处理方法及平台”,其实现步骤是:第一步,采用纹理基原直方图原理进行数据处理;第二本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于SMT质量大数据的高维特征重构与融合方法,其特征在于,包括如下步骤:(1)获取SMT产线质量大数据中的文本数据和结构化数据,分别对文本数据和结构化数据进行预处理,得到预处理后的SMT产线文本数据集和SMT产线结构化数据集;(2)分别提取预处理后的SMT产线预文本数据集和SMT产线结构化数据集的特征,得到文本特征集和数据特征集;(3)将文本特征集和数据特征集进行合并及去重处理,并依据合并及去重后的特征集筛选原始结构化数据集,将筛选后的数据集划分为工艺、质量、生产、设备和除这四种类别外的其它数据集;(4)构建激活函数不同的5种包含编码器和解码器的集成堆栈式自编码器SAE特征重构模型:建立以Tanh为激活函数的SAE特征重构模型;建立以Sigmoid为激活函数的SAE特征重构模型;建立以Relu为激活函数的SAE特征重构模型;建立以Softmax为激活函数的SAE特征重构模型;建立以ReLU6为激活函数的SAE特征重构模型;(5)对SAE特征重构模型进行迭代训练,获得特征重构结果:(5a)将工艺、质量、生产、设备和除这四种类别外的其它数据集均输入到5种不同的SAE特征重构模型中,输出每一类数据在每一种SAE特征重构模型中得到的质量指标的预测值;(5b)设定每种SAE特征重构模型的损失函数MSE,并通过质量指标的预测值和实际值计算出SAE特征重构模型的损失值J
k
;(5c)通过反向传播方法计算损失值J
k
的损失梯度再采用随机下降梯度法,通过损失梯度对SAE特征重构模型中编码器与解码器的权重w
k
进行更新,直到J
k
<0.1,则停止训练,将最后一次迭代的输出结果作为每一类数据的特征重构结果;(6)对每一类数据特征重构结果进行融合:(6a)将步骤(5b)得到的损失值J
k
作为每一类数据中每一种SAE特征重构模型的均方误差M,根据步骤(5a)的每一类数据对应的质量指标的预测值,得到每一类的每一种SAE特征重构模型的平均绝对百分比误差MAPE;(6b)基于SAE特征重构模型的MSE和MAPE对每一次重构的数据集进行加权融合,得到融合结果:(6b1)计算每一类SAE特征重构模型协同误差:其中,E
j
代表每一类数据集中第j种SAE特征重构模型基于第j个均方误差M和第j个平均绝对百分比误差MAPE的协同误差,j∈[1,5]的整数;(6b2)根据协同误差计算每一类SAE特征重构模型在每一类数据集中的权重:
其中,w
j
为每一类数据集在第j种SAE特征重构模型的权重,n为每一类数据集对应SAE特征重构模型个数;(6b3)根据每一类数据集中每一类SAE特征重构模型的权重,将每一类数据的特征重构结果进行融合,得到每一类数据集的新特征F
a
:其中,x为当前类别的数据特征重构结果,a∈[1,5]的整数;(6c)将每一类的数据集的新特征F
a
进行合并,得到融合结果F。2.根据权利要求1所述的方法,其特征在于,所述(1)中对文本数据进行预处理,实现如下:删除每份文本数据集中的无关数据,删除与关键信息无关的序号、空格;结合业务知识填充文本数据中缺失的数值;按照最近的句号、感叹号切合文本,对删除和填充后的文本数据依次进行本体构建、实体标注和实体关系标注,得到预处理后的文本数据集。3.根据权利要求1所述的方法,其特征在于,所述(1)中对结构化数据进行预处理,是先对结构化数据中的缺失值进行填充,再对填充后数据中的异常值进行检测删除,最后将填充和删除后的数据进行Z

score标准化,得到预处理后的结构化数据集。4.根据权利要求1所述的方法,其特征在于,所述(2)提取预处理后的SMT产线预文本数据集的特征,得到文本特征集,实现如下:(2a)构建由BERT嵌入层,Bi

LSTM层和CRF层串联组成的BERT...

【专利技术属性】
技术研发人员:常建涛原韻松朱孟达孔宪光陈维波刘潇龙
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1