一种基于张量和互信息的多模态数据融合方法和设备技术

技术编号:39272132 阅读:47 留言:0更新日期:2023-11-07 10:51
本发明专利技术公开了一种基于张量和互信息的多模态数据融合方法和设备,包括:数据预处理:获取多模态视频语料库,对语料库中视频片段进行预处理,包括文本、视觉、语音三种模态的数据,分割完整数据集为训练集和测试集;单模态表示学习:学习更细粒度的单模态的特征嵌入,利用互信息过滤单模态特征中的任务无关的噪声和冗余信息,对齐模态之间的表示;多模态融合学习:学习紧凑的多模态融合表示,利用多模态Tucker融合方法融合多种模态输入特征,利用互信息提升单模态输入特征和多模态融合特征的相关性,进一步过滤单模态中无关信息,减少融合过程产生的噪声信息;训练及预测:设计训练所使用的损失函数,利用反向传播算法训练模型,并进行最终的预测。并进行最终的预测。并进行最终的预测。

【技术实现步骤摘要】
一种基于张量和互信息的多模态数据融合方法和设备


[0001]本专利技术属于机器学习领域,特别是涉及一种基于张量和互信息的多模态数据融合方法和设备。

技术介绍

[0002]在现实世界中,数据天然是多源异构的,并且以多模态的形式存在,多模态数据已成为近年来数据资源的主要形式。“模态”是一个更为细粒度的概念,同一媒介下可存在不同的模态。概括来说,“多模态”可能有三种形式:

描述同一对象的多媒体数据,如互联网环境下描述某一特定对象的视频、图片、语音、文本等信息;

来自不同传感器的同一类媒体数据,如物联网背景下不同传感器所检测到的同一对象数据等;

具有不同的数据结构特点、表示形式的表意符号与信息,如描述同一对象的结构化、非结构化的数据单元,描述同一语义的词向量、词袋、知识图谱以及其它语义符号单元等。因此,从语义感知的角度切入,多模态数据涉及不同的感知通道如视觉、听觉、触觉、嗅觉所接收到的信息;在数据层面理解,多模态数据则可被看作多种数据类型的组合,如图片、数值、文本、符号、音频、时间序列,或者集本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于张量和互信息的多模态数据融合方法,其特征在于,包括以下步骤:(1)数据预处理模块:获取多模态视频语料库,对语料库中视频片段进行预处理,得到文本、视觉、语音三种模态的特征序列数据;(2)单模态表示学习模块:学习更细粒度的单模态的特征嵌入,利用互信息过滤单模态特征中的任务无关的噪声和冗余信息,对齐模态之间的表示;(3)多模态融合学习模块:学习紧凑的多模态融合表示,利用多模态Tucker融合方法融合多种模态输入特征,利用互信息提升单模态输入特征和多模态融合特征的相关性,进一步过滤单模态中无关信息,减少融合过程产生的噪声信息;(4)训练及预测:设计训练所使用的损失函数,训练步骤(1)

(3)构成的模型,并进行最终的预测。2.如权利要求1所述的基于张量和互信息的多模态数据融合方法,其特征在于:步骤(1)中每个视频都被分割成三种模态的语料库,文本特征提取过程为使用预训练的BERT作为文本特征提取器,最终输出的句子特征是所有维数为768的词项的平均表示;语音特征提取过程为使用COVAREP语音分析工具提取74维的语音特征;视觉特征提取过程为:利用Facet面部表情分析工具提取35维的面部表情特征;对于语料库,提取完的特征组成三种模态的序列:文本t、视觉v和语音a模态的特征序列表示分别为征组成三种模态的序列:文本t、视觉v和语音a模态的特征序列表示分别为其中l
m
,m∈{t,v,a}为序列的时间长度,d
m
,m∈{t,v,a}表示每个模态的特征维数,最后将预处理后的数据集按照7:3的比例分割成训练集和测试集。3.如权利要求1所述的基于张量和互信息的多模态数据融合方法,其特征在于:步骤(2)中学习更细粒度的单模态的特征嵌入具体包括:在文本模态方面,利用预训练的BERT直接通过提取文本表示,将最后一层BERT隐藏状态的表示作为话语级特征表示态的表示作为话语级特征表示其中θ
t
为预训练BERT模型的参数,d
t
'为预训练BERT模型的输出维数;对于视觉和语音模态,采用双向长短期记忆网络对视觉和语音输入序列进行编码;BiLSTM的最终状态隐藏层的输出作为视觉和语音序列的全局特征表示:编码;BiLSTM的最终状态隐藏层的输出作为视觉和语音序列的全局特征表示:其中,分别为文本t、视觉v和语音a的特征序列,其中l
m
,m∈{t,v,a}为序列的时间长度,d
m
,m∈{t,v,a}表示每个模态的特征维数;表示视觉和语音BiLSTM编码器的输出特征,θ
v
,θ
a
分别表示视觉和语音BiLSTM编码器的参数,d
v
'和d
a
'分别是视觉和语音BiLSTM编码器的输出特征维度;此外,为了进一步细化视觉和语音特征,将和输入到多层感知器,用于提取更高级别的单模态特征,视觉和语音模态的最终单模态表示如下:
式中,表示视觉、语音两种MLP编码器的输出特征,表示视觉、语音两种MLP编码器的参数。4.如权利要求3所述的基于张量和互信息的多模态数据融合方法,其特征在于:步骤2中利用互信息过滤单模态特征中的任务无关的噪声和冗余信息,对齐模态之间的表示,具体实现方式如下;利用互信息神经估计MINE进一步提取任务相关的...

【专利技术属性】
技术研发人员:朱晨露聂新杨天若邓贤君阮一恒
申请(专利权)人:湖北楚天高速数字科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1