基于深宽度联合神经网络的多模态数据知识信息提取方法技术

技术编号:29955810 阅读:24 留言:0更新日期:2021-09-08 08:56
本发明专利技术公开了一种基于深宽度联合神经网络的多模态数据知识信息提取方法,包括步骤:1)收集智能制造工厂生产所产生的多模态数据,进行数据清洗预处理后存储至Hadoop分布式文件系统中;2)将存储在HDFS中的原始数据日志记录按模态性质进行细分建表,分别将多模态数据处理成单模态数据特征,包括语音,文本,图像等单模态数据特征表等并存储到HIVE数据库中;3)利用深宽度联合网络对多模态数据特征表进行特征提取,得到对应的高层抽象特征知识,从而实现深宽度联合网络对多模态数据知识信息的提取。提取。提取。

【技术实现步骤摘要】
基于深宽度联合神经网络的多模态数据知识信息提取方法


[0001]本专利技术涉及深度学习,宽度学习及多模态数据特征提取等
,尤其 是指一种基于深宽度联合神经网络的多模态数据知识信息提取方法。

技术介绍

[0002]互联网技术高速发展,数字化产业链不断深入变革,大数据时代应运而生。 云计算、人工智能等技术飞速增长,建立起了以大数据为核心的数字生态社会。 来自于现实世界各方面的多模态数据,在现有的技术水平下很难得到有效分析。 海量数据带来的处理难度也大大提高。为了解决这些问题,亟待采用一种全新 的数据分析处理手段。运用最新AI技术融合来高效有效的处理多模态数据, 同时提供更灵活的个性化服务,洞察分析跨模态数据的语义信息,最大程度发 挥大数据价值,多模态数据的潜在价值将被真正激活。
[0003]当前,用于多模态数据的知识特征提取方法主要采用机器学习或者深度学习的 方法来实现处理和理解多源模态信息的能力,但现有方法往往无法自适应实现 多个模态数据特征间的有效融合(李慧芳,赵蕾蕾,胡光政.一种基于多模态 融合深度学习的智能故障诊断方法,2018.)(仲崇亮.一种基于卷积神经网络 的多模态特征融合方法及装置,2019.)。多模态学习历经多个发展阶段目前已 经全面步入使用深度学习作为知识提取的主要手段,但传统深度学习方法耗时 费力,尤其是应用在多模态数据领域中往往需要强大的计算资源,很难满足工 业学术界的需要。然而近期提出的宽度学习为我们提供了另外一种快速有效的 学习方法,宽度学习可以在不失准确率的基础上达到快速训练模型的目的;而 深度学习可以通过多层神经网络,通过有监督信息的反向更新权重来提取到更 具区分与代表性的特征。如何结合深度学习提取特征的强大能力与宽度学习快 速训练的高效率,来设计一种新的用于提取多模态数据特征的有效方法成为了 一个关键问题。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的不足,提出了一种基于深宽度联合神经 网络的多模态数据知识信息提取方法,首先收集多模态数据进行清洗过滤预处 理等;得到处理后的样本后将其存储至Hadoop分布式文件系统中并按各个模 态数据性质进行细分建立特征表;对每个单模态数据建立不同层次的深度降噪 自编码机,利用隐藏层学习得到的抽象低维特征来重构输入数据;在上层利用 辅助桥接优化层根据特定的损失函数进行进一步优化;最后利用最上层的宽度 网络对多模态数据样本进行预测。充分发挥了深度学习在提取模态数据特征中 自主学习高层抽象代表性特征的优势以及宽度学习快速训练模型参数达到模 型快速更新的能力以适应工业界的需要,从而提高了多模态数据领域特征提取 的有效性以及时效性。
[0005]本专利技术至少通过如下技术方案之一实现。
[0006]基于深宽度联合神经网络的多模态数据知识信息提取方法,包括以下步骤:
[0007]1)收集人员对智能制造工厂所产生的多模态数据,对数据进行预处理,将 处理后
的数据样本进行存储;
[0008]2)对原始多模态数据进行细分建表,分别将多模态数据处理成单模态数据 特征表;
[0009]3)利用深宽度联合网络对多模态数据特征表进行特征提取,得到对应的高 层抽象特征知识,从而实现对多模态数据知识信息的提取。
[0010]优选的,在步骤1)中,收集智能制造工厂系统在日常流水线中产生的多 模态数据日志并进行数据清洗过滤处理,将处理后的数据样本加载到以Kafka 为基础实现的分布式消息系统中,并将数据存储到Hadoop分布式文件系统的 存储模块中。
[0011]优选的,在步骤2)中,存储到分布式文件系统中的原始多模态数据每一 行包括各种模态的数据记录,将原始数据按照模态性质进行细分建表,分别将 多模态数据处理成包括语音、文本、图像的单模态数据特征表,并存储到HIVE 数据库中。
[0012]优选的,步骤3)具体包括以下步骤:
[0013]3.1)对每个单模态数据建立不同层次的深度降噪自动编码网络,利用隐藏 层学习得到的抽象低维特征重构输入数据;
[0014]3.2)将每个单模态数据由深度降噪自编码网络得到的抽象特征以不同的 权值接入到上层的桥接层,并且不同模态的分支网络对应的权值不同,各个单 模态数据所对应的深度降噪自编码网络的权值最终会自适应调整到最适合当 前知识发现的权重值;
[0015]3.3)对于k类分类任务、m个模态数据、n个样本、桥接层的优化目标函 数采用softmax分类器定义的损失函数来优化;
[0016]3.4)将所有模态的顶层输出通过外积乘法进行相连,得到融合后的语义特 征空间作为上层宽度网络的多模态融合层R
m
,融合公式为:
[0017][0018]其中,Z1至Z
m
分别表示各模态对应的分支网络的最上层重构后的输入特征, 代表外积算子;
[0019]3.5)将宽度网络特征层各个模态的输入分别再进行非线性映射从而使得 模态特征映射到增强模态空间中,得到的增强模态特征将被concat合并起来 作为宽度网络的增强模态层;
[0020]3.6)将上述步骤得到的最上层宽度网络的特征层、多模态融合层及增强模 态层进行合并作为深宽度联合网络的输入,利用宽度网络求伪逆的训练方式对 上层宽度网络进行训练。
[0021]优选的,在步骤3.1)中,从Hadoop分布式文件系统中存储的多模态数据 特征表中读取经过数据清洗过滤预处理后的多模态数据日志,将该多模态数据 日志作为深宽度联合网络训练的样本流数据,其中多模态数据日志的分区以小 时为间隔;对于每个模态的数据特征都建立一个分支深度降噪自动编码网络, 每个分支深度降噪自动编码网络包括多个隐藏神经网络层;
[0022]首先将每一种模态的独立组别特征利用最大最小归一化到[0,1]的特征向 量表达空间,归一化利用如下公式:
[0023][0024]式中,x
*
为归一化后的特征,x为原始特征输入,x
max
、x
min
分别对应归一化 前的特征最大和最小值;
[0025]深度降噪自动编码网络将各个模态归一化后的特征x
*
作扰动处理,将特征 x
*
投影到含有分布服从z
d
的噪声输入x

~z
d
(x

|x
*
),其中,x

表示在x
*
加入噪声 后的输入,z
d
表示以概率定义的二项分布,x

~z
d
(x

|x
*
)表示在给定输入x
*
的情 况下,通过按照设置的概率将x
*
某些值置为0,然后得到新的输入x


[0026]对各个模态对应的深度降噪自编码网络进行训练,训练分为两个阶段:无本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深宽度联合神经网络的多模态数据知识信息提取方法,其特征在于:包括以下步骤:1)收集人员对智能制造工厂所产生的多模态数据,对数据进行预处理,将处理后的数据样本进行存储;2)对原始多模态数据进行细分建表,分别将多模态数据处理成单模态数据特征表;3)利用深宽度联合网络对多模态数据特征表进行特征提取,得到对应的高层抽象特征知识,从而实现对多模态数据知识信息的提取。2.根据权利要求1所述的一种基于深宽度联合神经网络的多模态数据知识信息提取方法,其特征在于:在步骤1)中,收集智能制造工厂系统在日常流水线中产生的多模态数据日志并进行数据清洗过滤处理,将处理后的数据样本加载到以Kafka为基础实现的分布式消息系统中,并将数据存储到Hadoop分布式文件系统的存储模块中。3.根据权利要求2所述的一种基于深宽度联合神经网络的多模态数据知识信息提取方法,其特征在于:在步骤2)中,存储到分布式文件系统中的原始多模态数据每一行包括各种模态的数据记录,将原始数据按照模态性质进行细分建表,分别将多模态数据处理成包括语音、文本、图像的单模态数据特征表,并存储到HIVE数据库中。4.根据权利要求3所述的一种基于深宽度联合神经网络的多模态数据知识信息提取方法,其特征在于:步骤3)具体包括以下步骤:3.1)对每个单模态数据建立不同层次的深度降噪自动编码网络,利用隐藏层学习得到的抽象低维特征重构输入数据;3.2)将每个单模态数据由深度降噪自编码网络得到的抽象特征以不同的权值接入到上层的桥接层,并且不同模态的分支网络对应的权值不同,各个单模态数据所对应的深度降噪自编码网络的权值最终会自适应调整到最适合当前知识发现的权重值;3.3)对于k类分类任务、m个模态数据、n个样本、桥接层的优化目标函数采用softmax分类器定义的损失函数来优化;3.4)将所有模态的顶层输出通过外积乘法进行相连,得到融合后的语义特征空间作为上层宽度网络的多模态融合层R
m
,融合公式为:其中,Z1至Z
m
分别表示各模态对应的分支网络的最上层重构后的输入特征,代表外积算子;3.5)将宽度网络特征层各个模态的输入分别再进行非线性映射从而使得模态特征映射到增强模态空间中,得到的增强模态特征将被concat合并起来作为宽度网络的增强模态层;3.6)将上述步骤得到的最上层宽度网络的特征层、多模态融合层及增强模态层进行合并作为深宽度联合网络的输入,利用宽度网络求伪逆的训练方式对上层宽度网络进行训练。5.根据权利要求4所述的一种基于深宽度联合神经网络的多模态数据知识信息提取方法,其特征在于:在步骤3.1)中,从Hadoop分布式文件系统中存储的多模态数据特征表中读
取经过数据清洗过滤预处理后的多模态数据日志,将该多模态数据日志作为深宽度联合网络训练的样本流数据,其中多模态数据日志的分区以小时为间隔;对于每个模态的数据特征都建立一个分支深度降噪自动编码网络,每个分支深度降噪自动编码网络包括多个隐藏神经网络层;首先将每一种模态的独立组别特征利用最大最小归一化到[0,1]的特征向量表达空间,归一化利用如下公式:式中,x
*
为归一化后的特征,x为原始特征输入,x
max
、x
min
分别对应归一化前的特征最大和最小值;深度降噪自动编码网络将各个模态归一化后的特征x
*
作扰动处理,将特征x
*
投影到含有分布服从z
d
的噪声输入x

~z
d
(x

|x
*
),其中,x

表示在x
*
加入噪声后的输入,z
d
表示以概率定义的二项分布,x

~z
d
(x

|x
*
)表示在给定输入x
*
的情况下,通过按照设置的概率将x
*
某些值置为0,然后得到新的输入x

;对各个模态对应的深度降噪自编码网络进行训练,训练分为两个阶段:无监督预训练及有监督多模态网络联合微调阶段;在无监督预训练阶段,每个独立模态所属的子网络是相互独立训练的;在有监督多模态网络联合微调阶段,隐藏层对含有噪声的输入x

进行编码处理:h=f
θ
(Wx

+B)式中,f
θ
为编码的激活函数,W为编码的隐层权值矩阵,B是偏置向量,从而得...

【专利技术属性】
技术研发人员:刘雨晨余志文杨楷翔施一帆陈俊龙
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1