一种面向智能制造多模态数据的分类方法技术

技术编号:28422240 阅读:22 留言:0更新日期:2021-05-11 18:30
本发明专利技术公开了一种面向智能制造多模态数据的分类方法,包括步骤:1)收集和清洗生产数据日志,获取多模态数据;2)对多模态数据按其数据组成形式进行划分,并进行相应的预处理;3)对预处理后的多模态数据进行特征提取与特征融合,对融合后的特征进行分类。本发明专利技术通过对多模态数据进行预处理,结合自编码器和嵌入处理方式提取数据表层特征和挖掘数据深层特征,基于在线学习的方式,利用全连接前馈深度神经网络对数据进行实时分类及结果展示,有效提高了多模态数据分类的准确率及提升了AUC指标。

【技术实现步骤摘要】
一种面向智能制造多模态数据的分类方法
本专利技术涉及计算机人工智能领域,尤其是指一种面向智能制造多模态数据的分类方法。
技术介绍
随着工业4.0时代的到来和人工智能的飞速发展,许多传统工业行业以及新兴的医药制药行业的生产制造也开始走向智能化。而在智能制造大数据时代下,在工业生产、制药生产过程中,会产生大量结构复杂、难以分析的制造数据。如何从这些海量多模态生产数据中挖掘其背后的隐藏价值,对其进行有效分类,是现阶段智能制造研究领域的重点发展方向。针对当前智能制造多模态数据兼容性差、可拓展性低、模态不均衡性高、维度属性高等特点,如何保障数据的一致性、准确性、完整性和可靠性,并提高多模态数据处理的实时性、兼容性和可拓展性,是解决对智能制造多模态数据进行高效分类的关键所在。
技术实现思路
本专利技术的目的在于面向智能制造多模态数据,提出了一种面向智能制造多模态数据的分类方法,可有效解决多模态数据特征处理过于繁琐的缺点,已达到自动提取特征来提高数据分类的准确率及提升AUC指标。为实现上述目的,本专利技术所提供的技术方案为:一种面向智能制造多模态数据的分类方法,包括以下步骤:1)收集和清洗生产数据日志,获取多模态数据;2)对多模态数据按其数据组成形式进行划分,并进行相应的预处理;3)对预处理后的多模态数据进行特征提取与特征融合,对融合后的特征进行分类。在步骤1)中,所述收集和清洗生产数据日志,获取多模态数据是指对智能制造生产平台的数据日志进行收集,并对其中的异常数据和噪声数据进行筛选过滤;所述异常数据是指针对生产日志的所有记录,在给定的时间片里,对数据在某些变量维度下的取值超出合理范围,或者数据不服从3σ原则下的正态分布,会将这些数据视为不合理、异常的;所述噪声数据是指智能制造生产平台在收集日志时因网络故障、数据样本缺失、时间戳偏差以及数据基础特征缺失的不正常因素而导致某些样本数据与正常样本数据的差异大于阈值,那么这些数据就会被视为噪声数据;上述异常数据和噪声数据会在数据清洗阶段被筛选过滤,将筛选过滤后的数据样本保存到以分布式文件系统HDFS为实现基础的存储模块中,并创建相应的Hive数据库表,得到原始的多模态数据。在步骤2)中,对多模态数据按其数据组成形式进行划分,并进行相应的预处理是指服务器利用预处理层对不同形式数据采用不同的方法进行预处理,得到适用于后续处理的多模态数据,包括如下步骤:2.1)对多模态数据按数据组成形式进行划分,分为图像类数据、文本类数据和数值型数据;2.2)对步骤2.1)获得的图像类数据,获取其像素值矩阵并进行标准化预处理:式中,所有原始图像数据的像素矩阵集合表示为n1表示原始图像数据的数目,au表示第u个原始图像数据的像素矩阵,其中u取值范围为1到n1;μA表示所有的原始图像数据的像素矩阵的均值;σA表示所有的原始图像数据的像素矩阵的标准差;表示第u个原始图像数据经过标准化处理后得到的像素矩阵;当每个原始图像数据都完成标准化处理后,将得到的标准化像素矩阵替换掉对应的原始图像数据的像素矩阵,即得到预处理后的图像数据集合为对步骤2.1)获得的文本类数据,对其进行词向量预训练处理:对文本类数据进行初步分词处理,并根据分词词库结果,使用Word2Vec方法对文本数据进行词向量训练,将文本数据转为数值数据,即得到预处理后的文本数据集合为n2表示文本数据的数目,表示第n2个预处理后的文本数据;对步骤2.1)获得的数值型数据进行数据正则化处理:式中,所有数值型数据的集合表示为n3表示数值型数据的个数,cr表示第r个数据,其中r取值范围为1到n3;n表示数据的维度大小,Rn表示n维实数空间;表示cr的第d维,其中d的取值范围为1到n;Lq(cr)表示cr的q范数,其中q的值由用户设定;c'r表示cr经过正则化处理后的结果;当每个数值型数据都完成正则化处理后,将得到的正则化数据替换掉原始的数值型数据,即得到预处理后的数值型数据集合为当所有的数据都完成了预处理后,将其整合到一起,得到最终的多模态数据集合X={A,B,C}={x1,x2,...,xm},其中m=n1+n2+n3表示多模态数据集合的个数,xk表示第k个数据,k取值范围为1到m。在步骤3)中,对预处理后的多模态数据进行特征提取与特征融合,对融合后的特征进行分类,包括如下步骤:3.1)对预处理后的多模态数据集合X={x1,x2,...,xm},输入一个包含编码器和解码器的自编码器中,经过编码器的重构及解码器的生成,取解码器的输出作为特征F1,其中重构损失函数为:式中,h表示编码器;g表示解码器;λ表示超参数,其值为用户设置;m表示数据的个数;xk表示第k个数据,k取值范围为1到m;表示数据xk的雅可比矩阵的F范数;LAE表示损失函数;g(h(xk))表示数据xk依次经过编码器h重构及解码器g生成的结果;||g(h(xk))-xk||1表示g(h(xk))与xk的差值的1范数;在损失函数LAE达到收敛时,得到特征F1,即F1=g(h(X)),表示预处理后的多模态数据集合X依次经过编码器h重构及解码器g生成的结果,实质是一个m行L列的矩阵,m表示数据的个数,L表示每个数据的维度大小;3.2)将步骤3.1)中得到的特征F1复制两份,最终得到三份特征,分别是F1、F2、F3,对F2和F3做特征嵌入(embedding)处理,记为F'2、F'3:F'2=W2·F2F'3=W3·F3式中,W2、W3表示m行L列的参数矩阵;W2·F2表示W2与F2做点积;W3·F3表示W3与F3做点积;F'2、F'3表示得到的嵌入特征,两者都是m行L列的矩阵;3.3)将嵌入特征F'2和F'3做softmax处理后与特征F1做加权融合,具体过程为:式中,表示F'3的转置,为L行m列的矩阵;表示F'2与做矩阵乘法后得到m行m列矩阵,对矩阵每一列都除以一个常数表示对每一行做softmax处理;F表示与F1做矩阵乘法,得到m行L列的矩阵,即最终的融合特征;将得到的融合特征F加入T层的全连接前馈深度神经网络中训练,其公式表达为:式中,ht、ht+1分别表示第t层和第t+1层全连接前馈深度神经网络的输出结果,其中t的取值范围为1到T-1;Wt1、Wt2表示第t层全连接前馈深度神经网络的权重参数;分别表示与Wt1、Wt2对应的偏置参数;f(·)表示Leaky-ReLU函数,其公式为:式中,a的取值范围为0到1;取全连接前馈深度神经网络最后一层的输出结果hT、权重参数和偏置参数多模态数据的类别总数是C;对hT、做softmax处理,得到每个数据的分类结果:式中,表示与做矩阵乘法;Z表示m行C列的矩阵,zi表示Z的第i行,为C维向量,其中i的取值范围为1到m;exp(zi)表示对zi的每个元素都做以本文档来自技高网...

【技术保护点】
1.一种面向智能制造多模态数据的分类方法,其特征在于,包括以下步骤:/n1)收集和清洗生产数据日志,获取多模态数据;/n2)对多模态数据按其数据组成形式进行划分,并进行相应的预处理;/n3)对预处理后的多模态数据进行特征提取与特征融合,对融合后的特征进行分类。/n

【技术特征摘要】
1.一种面向智能制造多模态数据的分类方法,其特征在于,包括以下步骤:
1)收集和清洗生产数据日志,获取多模态数据;
2)对多模态数据按其数据组成形式进行划分,并进行相应的预处理;
3)对预处理后的多模态数据进行特征提取与特征融合,对融合后的特征进行分类。


2.根据权利要求1所述的一种面向智能制造多模态数据的分类方法,其特征在于:在步骤1)中,所述收集和清洗生产数据日志,获取多模态数据是指对智能制造生产平台的数据日志进行收集,并对其中的异常数据和噪声数据进行筛选过滤;所述异常数据是指针对生产日志的所有记录,在给定的时间片里,对数据在某些变量维度下的取值超出合理范围,或者数据不服从3σ原则下的正态分布,会将这些数据视为不合理、异常的;所述噪声数据是指智能制造生产平台在收集日志时因网络故障、数据样本缺失、时间戳偏差以及数据基础特征缺失的不正常因素而导致某些样本数据与正常样本数据的差异大于阈值,那么这些数据就会被视为噪声数据;上述异常数据和噪声数据会在数据清洗阶段被筛选过滤,将筛选过滤后的数据样本保存到以分布式文件系统HDFS为实现基础的存储模块中,并创建相应的Hive数据库表,得到原始的多模态数据。


3.根据权利要求1所述的一种面向智能制造多模态数据的分类方法,其特征在于:在步骤2)中,对多模态数据按其数据组成形式进行划分,并进行相应的预处理是指服务器利用预处理层对不同形式数据采用不同的方法进行预处理,得到适用于后续处理的多模态数据,包括如下步骤:
2.1)对多模态数据按数据组成形式进行划分,分为图像类数据、文本类数据和数值型数据;
2.2)对步骤2.1)获得的图像类数据,获取其像素值矩阵并进行标准化预处理:



式中,所有原始图像数据的像素矩阵集合表示为n1表示原始图像数据的数目,au表示第u个原始图像数据的像素矩阵,其中u取值范围为1到n1;μA表示所有的原始图像数据的像素矩阵的均值;σA表示所有的原始图像数据的像素矩阵的标准差;表示第u个原始图像数据经过标准化处理后得到的像素矩阵;
当每个原始图像数据都完成标准化处理后,将得到的标准化像素矩阵替换掉对应的原始图像数据的像素矩阵,即得到预处理后的图像数据集合为
对步骤2.1)获得的文本类数据,对其进行词向量预训练处理:
对文本类数据进行初步分词处理,并根据分词词库结果,使用Word2Vec方法对文本数据进行词向量训练,将文本数据转为数值数据,即得到预处理后的文本数据集合为n2表示文本数据的数目,表示第n2个预处理后的文本数据;
对步骤2.1)获得的数值型数据进行数据正则化处理:






式中,所有数值型数据的集合表示为n3表示数值型数据的个数,cr表示第r个数据,其中r取值范围为1到n3;n表示数据的维度大小,Rn表示n维实数空间;表示cr的第d维,其中d的取值范围为1到n;Lq(cr)表示cr的q范数,其中q的值由用户设定;c'r表示cr经过正则化处理后的结果;
当每个数值型数据都完成正则化处理后,将得到的正则化数据替换掉原始的数值型数据,即得到预处理后的数值型数据集合为
当所有的数据都完成了预处理后,将其整合到一起,得到最终的多模态数据集合X={A,B,C}={x1,x2,...,xm},其中m=n1+n2+n3表示多模态数据集合的个数,xk表示第k个数据,k取值范围为1到m。


4.根据权利要求1所述的一种面向智能制造多模态数据的分类方法,其特征在于:在步骤3)中,对预处理后的多模态数据进行特征提取与特征融合,对融合后的特征进行分类,包括如下步骤:
3.1)对预处理后的多模态数据集合X={x1,x2,...,xm},输入一个包含编码器和解码器的自编码器中,经过编码器的重构及解码器的生成,取解码器的输...

【专利技术属性】
技术研发人员:黎志豪余志文杨楷翔孟献兵陈俊龙
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1