基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备制造方法及图纸

技术编号:33449246 阅读:31 留言:0更新日期:2022-05-19 00:33
本发明专利技术涉及自然语言处理、深度学习、多模态情感分析领域,涉及一种基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备,所述方法包括使用ERNIE2.0预训练模型、DCCN、ResNet

【技术实现步骤摘要】
基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备


[0001]本专利技术涉及自然语言处理、深度学习、多模态情感分析
,特别涉及一种基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备。

技术介绍

[0002]随着电子商务和社交网络兴起和发展,人类可以通过这些媒体广泛的表达他们的意见以及建议,这些意见以及建议中通常会包含大量的主观性文本,这为意见挖掘和情感分析提供了非常丰富的资源,促进了情感分析的发展。同时也将情感分析应用众多领域。例如,公司在了解顾客对于他们的产品或品牌持有怎样的观点与建议等。因此情感分析体现了越来越重要的研究价值。以往的情感分析大多数是通过对单一的文本模态进行分析,但往往声音和面部表情也会包含丰富的情感信息,通过对声音和面部表情的情感挖掘,结合文本信息的情感,更有助于提高最终情感预测的准确度。因此,多模态情感分析更值得研究者进行研究。
[0003]关于多模态情感分析中的文本信息的提取,大多数基于单词和句子之间的共现性来训练模型,而文本语料库中还有其他值得研究的词汇、句法和语义信息。即多模态情感本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于跨模态动态卷积的视频多模态情感识别方法,其特征在于,包括:S1:获取视频中的各单模态初级特征,包括初级文本特征、初级音频特征以及初级图像特征;S2:将各单模态初级特征进行词级对齐,得到各个单模态词对齐特征,包括词对齐文本特征、词对齐音频特征和词对齐图像特征;S3:采用双向GRU网络分别对各个单模态词对齐特征进行预处理,得到各个单模态高级特征,包括高级文本特征、高级音频特征和高级图像特征;S4:利用跨模态动态卷积对词对齐文本特征、词对齐音频特征和词对齐图像特征进行多模态交互,得到六种跨模态交互对特征;S5:采用多头注意力机制对六种跨模态交互对特征以及各个单模态高级特征进行融合拼接,并输入到softmax函数中,输出视频的情感识别结果;其中,GRU表示门循环单元,softmax表示归一化指数函数。2.根据权利要求1所述的一种基于跨模态动态卷积的视频多模态情感识别方法,其特征在于,所述获取视频中的各单模态初级特征的步骤包括:S11:使用WordPiece标记视频中文本序列,送入到ERNIE2.0预训练模型中,得到视频中的初级文本特征X
t
;S12:使用openSMILE提取视频中的低级音频特征,采用DCCN提取音频局部特征,进行拼接得到视频中的初级音频特征X
a
;S13:使用openFACE提取视频中的低级图像特征,采用ResNet

152和胶囊网络进行图像特征提取,进行拼接得到视频中的初级图像特征X
v
;S14:获取视频中μ个片段,将每个视频片段中模态m的单模态初级特征信息采用一个特征向量X
m
表示,并将所有的特征向量存放于集合χ
m
中;即其中,openSMILE表示音频特征提取模型,openFACE表示图像特征提取模型,DCCN(Dilated Convolutional Neural Network)是扩张卷积神经网络,ResNet

152是残差网络,且m∈{t,a,v},t代表文本、a表音频、v表图像,表示集合χ
m
的维度是μ
×
d维;d表示单模态初级特征的维度。3.根据权利要求2所述的一种基于跨模态动态卷积的视频多模态情感识别方法,其特征在于,所述采用DCCN提取音频局部特征包括利用扩张率来降低输入特征图的尺度,其计算公式为:x

a
=x
a
(n)*w
a
(n)其中,x

a
表示卷积滤波器的输出;x
a
(n)是音频信号的输入;w
a
(n)是卷积滤波器的输入,σ表示激活函数,表示第l层第i个输出特征的偏置表示,是第l层第i个输出特征表示,是第l

1层第j个输出特征表示,是在BN层第i个和第j个特征之间的卷积滤波器。4.根据权利要求2所述的一种基于跨模态动态卷积的视频多模态情感识别方法,其特征在于,所述采用ResNet

152和胶囊网络进行图像特征提取包括利用ResNet

152残差网络
提取出图像的第一图像特征,将所述第一图像特征输入到胶囊网络中提取出低级图像特征。5.根据权利要求1所述的一种基于跨模态动态卷积的视频多模态情感识别方法,其特征在于,所述采用双向GRU网络分别对各个单模态词对齐特征进行预处理,得到各个单模态高级特征包括双向GRU网络由更新门z
t
和重置门r
t
组成,更新门z
t
决定是否要将隐藏状态更新为新的状态,重置门r
t
决定是否要将之前的状态忘记;双向GRU网络输出数据的大小为d
m
维,每个模态的词对齐特征向量x
m
输入双向GRU网络,双向GRU网络的计算公式为:其中,表示向量拼接操作,则模态m中特征向量经过双向GRU后的矩阵为:其中,m表示是模态类型,且m∈{t,a,v},t代表文本、a表音频、v表图像,μ表示视频片段,Z
m
表示各个模态词对齐特征信息z
m
经过双向GRU网络后的隐藏层输出,z
m
为视频中模态m的词对齐特征表示,表示前向GRU计算,表示后向GRU计算,表示矩阵Z

m
的维度是μ
×
2d
m
维,Z

m
表示模态m的高级特征。6.根据权利要求1所述的一种基于跨模态动态卷积的视频多模态情感识别方法,其特征在于,获取跨模态交互特征的步骤包括:互特征的步骤包括:互特征的步骤包括:互特征的步骤包括:互特征的步骤包括:互特征的步骤包括:其中,分别是输入源模态S1,S2和目标模态S3词对齐的初始层输入特征表示;分别是输入源模态S1,S2和目标模态S3词对齐特征表示;是多头...

【专利技术属性】
技术研发人员:郭艳霞唐宏金勇彭金枝
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1