当前位置: 首页 > 专利查询>上海大学专利>正文

一种基于双模态信息增强多头注意力的视频情感分析方法技术

技术编号:34713649 阅读:10 留言:0更新日期:2022-08-31 17:55
本发明专利技术涉及一种基于双模态信息增强多头注意力的视频情感分析方法,包括:对视频进行预处理;从预处理后的数据中获取单模态原始特征;基于单模态原始特征,进一步获取单模态深层特征,其中,单模态深层特征包括文本深层特征、音频深层特征和视频深层特征;根据单模态深层特征,提取出单模态间的交互信息,即得到双模态信息;从不同特征子空间计算双模态注意力,获取双模态间的交互信息;将双模态信息与双模态间交互信息进行融合及分类预测,得到对应的情感分析预测结果。与现有技术相比,本发明专利技术在提取单模态特征后,利用其获取模态间的交互信息,再进一步得到不同交互信息的独立性和一致性信息,从而进行有效的特征融合和准确的情感预测。情感预测。情感预测。

【技术实现步骤摘要】
一种基于双模态信息增强多头注意力的视频情感分析方法


[0001]本专利技术涉及自然语言处理
,尤其是涉及一种基于双模态信息增强多头注意力的视频情感分析方法。

技术介绍

[0002]情感分析是自然语言处理领域的一个基本任务,传统的情感分析方法主要是基于文本进行的单模态情感分析;随着人们表达方式的多样化,产生了大量的非静态数据如语音、视频,这些数据包含了丰富的情感信息,由此产生的多模态情感分析能够帮助计算机更好地学习了解人们的心理状态以及情感趋向。目前基于单模态的情感分析技术已经得到广泛研究和应用,如智能客服,推荐系统中;基于多模态数据的情感分析工作还有待进一步研究,其面临的主要困难是模态内部信息提取和模态间交互信息提取,即单模态特征提取和多模态融合。
[0003]其中,针对文本的情感分析可分为三种:基于情感词典的方法、机器学习方法和深度学习方法。基于情感词典的方法是使用适合于数据集的相应词典来进行文本分类,这种方法依赖于人工、且分类性能依赖于词典的质量;基于机器学习的方法包括使用一些有监督或无监督的机器学习分类算法,如朴素贝叶斯、支持向量机、决策树、随机森林等,这些方法在一定程度上依赖于特征工程、且在数据量较大的时候效率低;基于深度学习的方法则大多能取得不错的效果,比如LSTM(Long Short

Term Memory,长短期记忆网络)、CNN(Convolutional Neural Networks,卷积神经网络)、注意力机制、Transformer、BERT等都在文本学习上有着广泛的应用,BERT在很多自然语言处理任务上的性能也是达到SOTA。
[0004]针对语音的情感分析首先需要对语音特征进行提取,其中谱特征、韵律特征和音质特征最为常用。目前也有一些开源的库可以提取出这些与情感相关的特征如openSMILE,LibROSA,COVAREP等,然后设计神经网络来对提取的特征进行深度学习。
[0005]针对视频的情感分析则包含了文本、语音还有面部表情的识别。解决该问题的常规做法是,首先进行单模态特征提取,对于面部特征可以使用开源库OpenFace2.0等,也可以使用3D

CNN,VGG(Visual Geometry Group,超分辨率测试序列)等神经网络;然后进行多模态融合,目前已有的一些融合方法主要是特征层融合和决策层融合,基于特征层融合的方法较多,但是不能充分提取模态内部的交互信息,而基于决策层融合的方法则不能充分提取模态间的交互信息,由此,研究者提出了张量融合、动态记忆网络以及基于注意力机制的方法,但是这些方法仅考虑提取单模态内部重要特征,或是以其他模态信息作为监督信息来提高模态内部特征提取的有效性,而在实际场景中,不同的模态的交互程度是不同的,另一个模态可以弥补当前模态的不足,并且两个模态融合之后的特征对最终的情感决策的贡献不同,例如,有些人说话音量很高,但面部表情是开心的,那么结合这两个模态可以判断该人是高兴的,但若说出的内容是表达不满的,那么结合声音和文本可以判断该人是愤怒的。因此如何权衡两两模态交互之后所提供的信息,从而使计算机能够准确识别出人的情感,是当前视频情感分析中亟需解决的问题。

技术实现思路

[0006]本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于双模态信息增强多头注意力的视频情感分析方法,以可靠权衡不同双模态的贡献度、提高视频情感分析识别结果的准确度。
[0007]本专利技术的目的可以通过以下技术方案来实现:一种基于双模态信息增强多头注意力的视频情感分析方法,包括以下步骤:
[0008]S1、对视频进行预处理:从视频中分离出音频,并对音频进行转录,得到相应文本,之后对视频进行分帧处理、对视频帧进行人脸检测与对齐处理;
[0009]S2、从预处理后的数据中获取单模态原始特征:采用BERT模型从文本中获取句子向量,并利用第三方工具提取出音频特征和视频特征;
[0010]S3、基于单模态原始特征,进一步获取单模态深层特征,其中,单模态深层特征包括文本深层特征、音频深层特征和视频深层特征;
[0011]S4、根据单模态深层特征,提取出单模态间的交互信息,即得到双模态信息;
[0012]S5、从不同特征子空间计算双模态注意力,获取双模态间的交互信息;
[0013]S6、将双模态信息与双模态间交互信息进行融合及分类预测,得到对应的情感分析预测结果。
[0014]进一步地,所述步骤S3具体包括以下步骤:
[0015]S31、基于句子向量,将所有句子的长度调整为长度一致,得到长度统一的句子表示;
[0016]将长度统一的句子表示输入LSTM中,得到提取了上下文关系的文本深层特征;
[0017]S32、在特征维上,对音频特征所有的帧向量取平均,得到平均后的音频特征;
[0018]将平均后的音频特征输入三层深度神经网络中,得到音频深层特征;
[0019]S33、在特征维上,对视频特征所有的帧向量取平均,得到平均后的视频特征;
[0020]将平均后的视频特征输入三层深度神经网络中,得到视频深层特征。
[0021]进一步地,所述文本深层特征具体为:
[0022][0023]其中,t
i
为文本深层特征,为长度统一的句子表示,W
i
为文本深度特征提取过程中所用的权重参数。
[0024]进一步地,所述音频深层特征具体为:
[0025][0026]其中,a
i
为音频深层特征,为平均后的音频特征,W
i
'为音频深层特征提取过程中所用的权重参数。
[0027]进一步地,所述视频深层特征具体为:
[0028][0029]其中,v
i
为视频深层特征,为平均后的视频特征,W'
i
'为视频深层特征提取过程中所用的权重参数。
[0030]进一步地,所述双模态信息包括声音和视频的融合信息、声音和文本的融合信息、
视频和文本的融合信息,所述声音和视频的融合信息具体为:
[0031][0032]R
A
={a1,a2,...,a
N
}
[0033]R
V
={v1,v2,...,v
N
}
[0034]其中,R
AV
为声音和视频的融合信息,R
A
为音频深层特征集合,R
V
为视频深层特征集合,N为视频数量;
[0035]所述声音和文本的融合信息具体为:
[0036][0037]R
T
={t1,t2,...,t
N
}
[0038]其中,R
AT
为声音和文本的融合信息,R
T
为文本深层特征集合;
[0039]所述视频和文本的融合信息具体为:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,包括以下步骤:S1、对视频进行预处理:从视频中分离出音频,并对音频进行转录,得到相应文本,之后对视频进行分帧处理、对视频帧进行人脸检测与对齐处理;S2、从预处理后的数据中获取单模态原始特征:采用BERT模型从文本中获取句子向量,并利用第三方工具提取出音频特征和视频特征;S3、基于单模态原始特征,进一步获取单模态深层特征,其中,单模态深层特征包括文本深层特征、音频深层特征和视频深层特征;S4、根据单模态深层特征,提取出单模态间的交互信息,即得到双模态信息;S5、从不同特征子空间计算双模态注意力,获取双模态间的交互信息;S6、将双模态信息与双模态间交互信息进行融合及分类预测,得到对应的情感分析预测结果。2.根据权利要求1所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述步骤S3具体包括以下步骤:S31、基于句子向量,将所有句子的长度调整为长度一致,得到长度统一的句子表示;将长度统一的句子表示输入LSTM中,得到提取了上下文关系的文本深层特征;S32、在特征维上,对音频特征所有的帧向量取平均,得到平均后的音频特征;将平均后的音频特征输入三层深度神经网络中,得到音频深层特征;S33、在特征维上,对视频特征所有的帧向量取平均,得到平均后的视频特征;将平均后的视频特征输入三层深度神经网络中,得到视频深层特征。3.根据权利要求2所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述文本深层特征具体为:其中,t
i
为文本深层特征,为长度统一的句子表示,W
i
为文本深度特征提取过程中所用的权重参数。4.根据权利要求3所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述音频深层特征具体为:其中,a
i
为音频深层特征,为平均后的音频特征,W
i
'为音频深层特征提取过程中所用的权重参数。5.根据权利要求4所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述视频深层特征具体为:其中,v
i
为视频深层特征,为平均后的视频特征,W

i
为视频深层特征提取过程中所用的权重参数。6.根据权利要求5所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述双模态信息包括声音和视频的融合信息、声音和文本的融合信息、视频和
文本的融合信息,所述声音和视频的融合信息具体为:R
A
={a1,a2,...,a
N
}R
V
={v1,v2,...,v
N
}其中,R
AV
为声音和视频的融合信息,R
A
为音频深层特征集合,R
V
为视频深层特征集合,N为视频数量;所述声音和文本的融合信息具体为:R
T
={t1,t2,...,t
N
}其中,R
AT
为声音和文本的融合信息,R
T
为文本深层特征集合;所述视频和文本的融合信息具体为:其中,R
VT
为视频和文本的融合信息。7.根据权利要求6所述的一种基于双模态信息增强多头注意力的视频情感分析方法,其特征在于,所述步骤S5具体包括以下步骤:S51、使用两层相同维度的全连接层,以获得双模态信...

【专利技术属性】
技术研发人员:彭俊杰吴廷郑藏智马传帅
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1