基于深宽度联合神经网络的多模态数据知识信息提取方法技术

技术编号：29955810 阅读：24 留言：0更新日期：2021-09-08 08:56

本发明专利技术公开了一种基于深宽度联合神经网络的多模态数据知识信息提取方法，包括步骤：1)收集智能制造工厂生产所产生的多模态数据，进行数据清洗预处理后存储至Hadoop分布式文件系统中；2)将存储在HDFS中的原始数据日志记录按模态性质进行细分建表，分别将多模态数据处理成单模态数据特征，包括语音，文本，图像等单模态数据特征表等并存储到HIVE数据库中；3)利用深宽度联合网络对多模态数据特征表进行特征提取，得到对应的高层抽象特征知识，从而实现深宽度联合网络对多模态数据知识信息的提取。提取。提取。

全部详细技术资料下载

【技术实现步骤摘要】
基于深宽度联合神经网络的多模态数据知识信息提取方法

[0001]本专利技术涉及深度学习，宽度学习及多模态数据特征提取等
，尤其是指一种基于深宽度联合神经网络的多模态数据知识信息提取方法。

技术介绍

[0002]互联网技术高速发展，数字化产业链不断深入变革，大数据时代应运而生。云计算、人工智能等技术飞速增长，建立起了以大数据为核心的数字生态社会。来自于现实世界各方面的多模态数据，在现有的技术水平下很难得到有效分析。海量数据带来的处理难度也大大提高。为了解决这些问题，亟待采用一种全新的数据分析处理手段。运用最新AI技术融合来高效有效的处理多模态数据，同时提供更灵活的个性化服务，洞察分析跨模态数据的语义信息，最大程度发挥大数据价值，多模态数据的潜在价值将被真正激活。
[0003]当前，用于多模态数据的知识特征提取方法主要采用机器学习或者深度学习的方法来实现处理和理解多源模态信息的能力，但现有方法往往无法自适应实现多个模态数据特征间的有效融合(李慧芳,赵蕾蕾,胡光政.一种基于多模态融合深度学习的智能故障诊断方法,2018.)(仲崇亮.一种基于卷积神经网络的多模态特征融合方法及装置,2019.)。多模态学习历经多个发展阶段目前已经全面步入使用深度学习作为知识提取的主要手段，但传统深度学习方法耗时费力，尤其是应用在多模态数据领域中往往需要强大的计算资源，很难满足工业学术界的需要。然而近期提出的宽度学习为我们提供了另外一种快速有效的学习方法，宽度学习可以在不失准确率的基础上达到快速训练模...

【技术保护点】

【技术特征摘要】
1.基于深宽度联合神经网络的多模态数据知识信息提取方法，其特征在于：包括以下步骤：1)收集人员对智能制造工厂所产生的多模态数据，对数据进行预处理，将处理后的数据样本进行存储；2)对原始多模态数据进行细分建表，分别将多模态数据处理成单模态数据特征表；3)利用深宽度联合网络对多模态数据特征表进行特征提取，得到对应的高层抽象特征知识，从而实现对多模态数据知识信息的提取。2.根据权利要求1所述的一种基于深宽度联合神经网络的多模态数据知识信息提取方法，其特征在于：在步骤1)中，收集智能制造工厂系统在日常流水线中产生的多模态数据日志并进行数据清洗过滤处理，将处理后的数据样本加载到以Kafka为基础实现的分布式消息系统中，并将数据存储到Hadoop分布式文件系统的存储模块中。3.根据权利要求2所述的一种基于深宽度联合神经网络的多模态数据知识信息提取方法，其特征在于：在步骤2)中，存储到分布式文件系统中的原始多模态数据每一行包括各种模态的数据记录，将原始数据按照模态性质进行细分建表，分别将多模态数据处理成包括语音、文本、图像的单模态数据特征表，并存储到HIVE数据库中。4.根据权利要求3所述的一种基于深宽度联合神经网络的多模态数据知识信息提取方法，其特征在于：步骤3)具体包括以下步骤：3.1)对每个单模态数据建立不同层次的深度降噪自动编码网络，利用隐藏层学习得到的抽象低维特征重构输入数据；3.2)将每个单模态数据由深度降噪自编码网络得到的抽象特征以不同的权值接入到上层的桥接层，并且不同模态的分支网络对应的权值不同，各个单模态数据所对应的深度降噪自编码网络的权值最终会自适应调整到最适合当前知识发现的权重值；3.3)对于k类分类任务、m个模态数据、n个样本、桥接层的优化目标函数采用softmax分类器定义的损失函数来优化；3.4)将所有模态的顶层输出通过外积乘法进行相连，得到融合后的语义特征空间作为上层宽度网络的多模态融合层R
m
，融合公式为：其中，Z1至Z
m
分别表示各模态对应的分支网络的最上层重构后的输入特征，代表外积算子；3.5)将宽度网络特征层各个模态的输入分别再进行非线性映射从而使得模态特征映射到增强模态空间中，得到的增强模态特征将被concat合并起来作为宽度网络的增强模态层；3.6)将上述步骤得到的最上层宽度网络的特征层、多模态融合层及增强模态层进行合并作为深宽度联合网络的输入，利用宽度网络求伪逆的训练方式对上层宽度网络进行训练。5.根据权利要求4所述的一种基于深宽度联合神经网络的多模态数据知识信息提取方法，其特征在于：在步骤3.1)中，从Hadoop分布式文件系统中存储的多模态数据特征表中读
取经过数据清洗过滤预处理后的多模态数据日志，将该多模态数据日志作为深宽度联合网络训练的样本流数据，其中多模态数据日志的分区以小时为间隔；对于每个模态的数据特征都建立一个分支深度降噪自动编码网络，每个分支深度降噪自动编码网络包括多个隐藏神经网络层；首先将每一种模态的独立组别特征利用最大最小归一化到[0，1]的特征向量表达空间，归一化利用如下公式：式中，x
*
为归一化后的特征，x为原始特征输入，x
max
、x
min
分别对应归一化前的特征最大和最小值；深度降噪自动编码网络将各个模态归一化后的特征x
*
作扰动处理，将特征x
*
投影到含有分布服从z
d
的噪声输入x
′
～z
d
(x
′
|x
*
)，其中，x
′
表示在x
*
加入噪声后的输入，z
d
表示以概率定义的二项分布，x
′
～z
d
(x
′
|x
*
)表示在给定输入x
*
的情况下，通过按照设置的概率将x
*
某些值置为0，然后得到新的输入x
′
；对各个模态对应的深度降噪自编码网络进行训练，训练分为两个阶段：无监督预训练及有监督多模态网络联合微调阶段；在无监督预训练阶段，每个独立模态所属的子网络是相互独立训练的；在有监督多模态网络联合微调阶段，隐藏层对含有噪声的输入x
′
进行编码处理：h＝f
θ
(Wx
′
+B)式中，f
θ
为编码的激活函数，W为编码的隐层权值矩阵，B是偏置向量，从而得...

【专利技术属性】
技术研发人员：刘雨晨，余志文，杨楷翔，施一帆，陈俊龙，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人