【技术实现步骤摘要】
一种面向智能制造多模态数据的分类方法
本专利技术涉及计算机人工智能领域,尤其是指一种面向智能制造多模态数据的分类方法。
技术介绍
随着工业4.0时代的到来和人工智能的飞速发展,许多传统工业行业以及新兴的医药制药行业的生产制造也开始走向智能化。而在智能制造大数据时代下,在工业生产、制药生产过程中,会产生大量结构复杂、难以分析的制造数据。如何从这些海量多模态生产数据中挖掘其背后的隐藏价值,对其进行有效分类,是现阶段智能制造研究领域的重点发展方向。针对当前智能制造多模态数据兼容性差、可拓展性低、模态不均衡性高、维度属性高等特点,如何保障数据的一致性、准确性、完整性和可靠性,并提高多模态数据处理的实时性、兼容性和可拓展性,是解决对智能制造多模态数据进行高效分类的关键所在。
技术实现思路
本专利技术的目的在于面向智能制造多模态数据,提出了一种面向智能制造多模态数据的分类方法,可有效解决多模态数据特征处理过于繁琐的缺点,已达到自动提取特征来提高数据分类的准确率及提升AUC指标。为实现上述目的,本专利技术所提供的技术方案为:一种面向智能制造多模态数据的分类方法,包括以下步骤:1)收集和清洗生产数据日志,获取多模态数据;2)对多模态数据按其数据组成形式进行划分,并进行相应的预处理;3)对预处理后的多模态数据进行特征提取与特征融合,对融合后的特征进行分类。在步骤1)中,所述收集和清洗生产数据日志,获取多模态数据是指对智能制造生产平台的数据日志进行收集,并对其中的异常数据和噪声 ...
【技术保护点】
1.一种面向智能制造多模态数据的分类方法,其特征在于,包括以下步骤:/n1)收集和清洗生产数据日志,获取多模态数据;/n2)对多模态数据按其数据组成形式进行划分,并进行相应的预处理;/n3)对预处理后的多模态数据进行特征提取与特征融合,对融合后的特征进行分类。/n
【技术特征摘要】
1.一种面向智能制造多模态数据的分类方法,其特征在于,包括以下步骤:
1)收集和清洗生产数据日志,获取多模态数据;
2)对多模态数据按其数据组成形式进行划分,并进行相应的预处理;
3)对预处理后的多模态数据进行特征提取与特征融合,对融合后的特征进行分类。
2.根据权利要求1所述的一种面向智能制造多模态数据的分类方法,其特征在于:在步骤1)中,所述收集和清洗生产数据日志,获取多模态数据是指对智能制造生产平台的数据日志进行收集,并对其中的异常数据和噪声数据进行筛选过滤;所述异常数据是指针对生产日志的所有记录,在给定的时间片里,对数据在某些变量维度下的取值超出合理范围,或者数据不服从3σ原则下的正态分布,会将这些数据视为不合理、异常的;所述噪声数据是指智能制造生产平台在收集日志时因网络故障、数据样本缺失、时间戳偏差以及数据基础特征缺失的不正常因素而导致某些样本数据与正常样本数据的差异大于阈值,那么这些数据就会被视为噪声数据;上述异常数据和噪声数据会在数据清洗阶段被筛选过滤,将筛选过滤后的数据样本保存到以分布式文件系统HDFS为实现基础的存储模块中,并创建相应的Hive数据库表,得到原始的多模态数据。
3.根据权利要求1所述的一种面向智能制造多模态数据的分类方法,其特征在于:在步骤2)中,对多模态数据按其数据组成形式进行划分,并进行相应的预处理是指服务器利用预处理层对不同形式数据采用不同的方法进行预处理,得到适用于后续处理的多模态数据,包括如下步骤:
2.1)对多模态数据按数据组成形式进行划分,分为图像类数据、文本类数据和数值型数据;
2.2)对步骤2.1)获得的图像类数据,获取其像素值矩阵并进行标准化预处理:
式中,所有原始图像数据的像素矩阵集合表示为n1表示原始图像数据的数目,au表示第u个原始图像数据的像素矩阵,其中u取值范围为1到n1;μA表示所有的原始图像数据的像素矩阵的均值;σA表示所有的原始图像数据的像素矩阵的标准差;表示第u个原始图像数据经过标准化处理后得到的像素矩阵;
当每个原始图像数据都完成标准化处理后,将得到的标准化像素矩阵替换掉对应的原始图像数据的像素矩阵,即得到预处理后的图像数据集合为
对步骤2.1)获得的文本类数据,对其进行词向量预训练处理:
对文本类数据进行初步分词处理,并根据分词词库结果,使用Word2Vec方法对文本数据进行词向量训练,将文本数据转为数值数据,即得到预处理后的文本数据集合为n2表示文本数据的数目,表示第n2个预处理后的文本数据;
对步骤2.1)获得的数值型数据进行数据正则化处理:
式中,所有数值型数据的集合表示为n3表示数值型数据的个数,cr表示第r个数据,其中r取值范围为1到n3;n表示数据的维度大小,Rn表示n维实数空间;表示cr的第d维,其中d的取值范围为1到n;Lq(cr)表示cr的q范数,其中q的值由用户设定;c'r表示cr经过正则化处理后的结果;
当每个数值型数据都完成正则化处理后,将得到的正则化数据替换掉原始的数值型数据,即得到预处理后的数值型数据集合为
当所有的数据都完成了预处理后,将其整合到一起,得到最终的多模态数据集合X={A,B,C}={x1,x2,...,xm},其中m=n1+n2+n3表示多模态数据集合的个数,xk表示第k个数据,k取值范围为1到m。
4.根据权利要求1所述的一种面向智能制造多模态数据的分类方法,其特征在于:在步骤3)中,对预处理后的多模态数据进行特征提取与特征融合,对融合后的特征进行分类,包括如下步骤:
3.1)对预处理后的多模态数据集合X={x1,x2,...,xm},输入一个包含编码器和解码器的自编码器中,经过编码器的重构及解码器的生成,取解码器的输...
【专利技术属性】
技术研发人员:黎志豪,余志文,杨楷翔,孟献兵,陈俊龙,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。