一种基于双模态信息增强多头注意力的视频情感分析方法技术

技术编号：34713649 阅读：10 留言：0更新日期：2022-08-31 17:55

本发明专利技术涉及一种基于双模态信息增强多头注意力的视频情感分析方法，包括：对视频进行预处理；从预处理后的数据中获取单模态原始特征；基于单模态原始特征，进一步获取单模态深层特征，其中，单模态深层特征包括文本深层特征、音频深层特征和视频深层特征；根据单模态深层特征，提取出单模态间的交互信息，即得到双模态信息；从不同特征子空间计算双模态注意力，获取双模态间的交互信息；将双模态信息与双模态间交互信息进行融合及分类预测，得到对应的情感分析预测结果。与现有技术相比，本发明专利技术在提取单模态特征后，利用其获取模态间的交互信息，再进一步得到不同交互信息的独立性和一致性信息，从而进行有效的特征融合和准确的情感预测。情感预测。情感预测。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于双模态信息增强多头注意力的视频情感分析方法

[0001]本专利技术涉及自然语言处理
，尤其是涉及一种基于双模态信息增强多头注意力的视频情感分析方法。

技术介绍

[0002]情感分析是自然语言处理领域的一个基本任务，传统的情感分析方法主要是基于文本进行的单模态情感分析；随着人们表达方式的多样化，产生了大量的非静态数据如语音、视频，这些数据包含了丰富的情感信息，由此产生的多模态情感分析能够帮助计算机更好地学习了解人们的心理状态以及情感趋向。目前基于单模态的情感分析技术已经得到广泛研究和应用，如智能客服，推荐系统中；基于多模态数据的情感分析工作还有待进一步研究，其面临的主要困难是模态内部信息提取和模态间交互信息提取，即单模态特征提取和多模态融合。
[0003]其中，针对文本的情感分析可分为三种：基于情感词典的方法、机器学习方法和深度学习方法。基于情感词典的方法是使用适合于数据集的相应词典来进行文本分类，这种方法依赖于人工、且分类性能依赖于词典的质量；基于机器学习的方法包括使用一些有监督或无监督的机器学习分类算法，如朴素贝叶斯、支持向量机、决策树、随机森林等，这些方法在一定程度上依赖于特征工程、且在数据量较大的时候效率低；基于深度学习的方法则大多能取得不错的效果，比如LSTM(Long Short
‑
Term Memory，长短期记忆网络)、CNN(Convolutional Neural Networks，卷积神经网络)、注意力机制、Transformer、BERT等都在文本学习上有...

【技术保护点】

【技术特征摘要】
1.一种基于双模态信息增强多头注意力的视频情感分析方法，其特征在于，包括以下步骤：S1、对视频进行预处理：从视频中分离出音频，并对音频进行转录，得到相应文本，之后对视频进行分帧处理、对视频帧进行人脸检测与对齐处理；S2、从预处理后的数据中获取单模态原始特征：采用BERT模型从文本中获取句子向量，并利用第三方工具提取出音频特征和视频特征；S3、基于单模态原始特征，进一步获取单模态深层特征，其中，单模态深层特征包括文本深层特征、音频深层特征和视频深层特征；S4、根据单模态深层特征，提取出单模态间的交互信息，即得到双模态信息；S5、从不同特征子空间计算双模态注意力，获取双模态间的交互信息；S6、将双模态信息与双模态间交互信息进行融合及分类预测，得到对应的情感分析预测结果。2.根据权利要求1所述的一种基于双模态信息增强多头注意力的视频情感分析方法，其特征在于，所述步骤S3具体包括以下步骤：S31、基于句子向量，将所有句子的长度调整为长度一致，得到长度统一的句子表示；将长度统一的句子表示输入LSTM中，得到提取了上下文关系的文本深层特征；S32、在特征维上，对音频特征所有的帧向量取平均，得到平均后的音频特征；将平均后的音频特征输入三层深度神经网络中，得到音频深层特征；S33、在特征维上，对视频特征所有的帧向量取平均，得到平均后的视频特征；将平均后的视频特征输入三层深度神经网络中，得到视频深层特征。3.根据权利要求2所述的一种基于双模态信息增强多头注意力的视频情感分析方法，其特征在于，所述文本深层特征具体为：其中，t
i
为文本深层特征，为长度统一的句子表示，W
i
为文本深度特征提取过程中所用的权重参数。4.根据权利要求3所述的一种基于双模态信息增强多头注意力的视频情感分析方法，其特征在于，所述音频深层特征具体为：其中，a
i
为音频深层特征，为平均后的音频特征，W
i
'为音频深层特征提取过程中所用的权重参数。5.根据权利要求4所述的一种基于双模态信息增强多头注意力的视频情感分析方法，其特征在于，所述视频深层特征具体为：其中，v
i
为视频深层特征，为平均后的视频特征，W
″
i
为视频深层特征提取过程中所用的权重参数。6.根据权利要求5所述的一种基于双模态信息增强多头注意力的视频情感分析方法，其特征在于，所述双模态信息包括声音和视频的融合信息、声音和文本的融合信息、视频和
文本的融合信息，所述声音和视频的融合信息具体为：R
A
＝{a1,a2,...,a
N
}R
V
＝{v1,v2,...,v
N
}其中，R
AV
为声音和视频的融合信息，R
A
为音频深层特征集合，R
V
为视频深层特征集合，N为视频数量；所述声音和文本的融合信息具体为：R
T
＝{t1,t2,...,t
N
}其中，R
AT
为声音和文本的融合信息，R
T
为文本深层特征集合；所述视频和文本的融合信息具体为：其中，R
VT
为视频和文本的融合信息。7.根据权利要求6所述的一种基于双模态信息增强多头注意力的视频情感分析方法，其特征在于，所述步骤S5具体包括以下步骤：S51、使用两层相同维度的全连接层，以获得双模态信...

【专利技术属性】
技术研发人员：彭俊杰，吴廷，郑藏智，马传帅，
申请(专利权)人：上海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人