【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及一种多模态情感分析方法及装置。
技术介绍
1、多模态情感分析是情感计算研究中的一个流行领域,多模态情感分析通常包括三个模态:视觉(图像)、声音(语音)和转录文本(从视频中转录的口语文字),之所以划分出不同的模态,是因为不同模态提供的信息往往不同,而且对不同模态的信息需要采用的处理和建模方式也不同。
2、简单情况下,可以仅通过单一的模态就可以得到一个对情感态度的判断,例如一段评价文字,一通对话录音,一段评论视频等。但是如果只通过一个模态的信息进行分析,往往不能得到全面的情感信息。所以结合多个模态的数据并将其统一建模的多模态方法成为了目前情感分析的主流方法。
3、现有的多模态情感分析方法大多通过深度神经网络模型将多模态情感相关特征聚合为话语级表征,再根据话语级表征完成情感评分,但是视频、音频模态的特征信息少,噪声多,且深度神经网络模型强大的拟合能力容易受到噪声信息的干扰,使得融合后的特征噪声也多,导致模型分析效果较差。
技术实现思路
1、
...【技术保护点】
1.一种多模态情感分析方法,其特征在于,包括:
2.根据权利要求1所述的多模态情感分析方法,其特征在于,所述多模态特征提取网络包括语言表示网络、音频处理网络和人脸检测网络;所述待检测多模态情感数据包括待检测文本序列、待检测音频和待检测视频帧图像;所述多模态情感张量包括文本张量、音频张量和视频帧张量;所述通过所述多模态特征提取网络对所述待检测多模态情感数据进行特征提取,生成多模态情感张量的步骤包括:
3.根据权利要求2所述的多模态情感分析方法,其特征在于,所述交叉注意力特征交互网络包括全连接层、注意力机制模块、跨模态信息交互模块和拼接层;所述多模
...【技术特征摘要】
1.一种多模态情感分析方法,其特征在于,包括:
2.根据权利要求1所述的多模态情感分析方法,其特征在于,所述多模态特征提取网络包括语言表示网络、音频处理网络和人脸检测网络;所述待检测多模态情感数据包括待检测文本序列、待检测音频和待检测视频帧图像;所述多模态情感张量包括文本张量、音频张量和视频帧张量;所述通过所述多模态特征提取网络对所述待检测多模态情感数据进行特征提取,生成多模态情感张量的步骤包括:
3.根据权利要求2所述的多模态情感分析方法,其特征在于,所述交叉注意力特征交互网络包括全连接层、注意力机制模块、跨模态信息交互模块和拼接层;所述多模态交互特征包括目标音频文本交互特征和目标视频帧文本交互特征;所述将所述多模态情感张量输入至所述交叉注意力特征交互网络进行特征交互,输出多模态交互特征的步骤,包括:
4.根据权利要求3所述的多模态情感分析方法,其特征在于,所述注意力机制模块包括自注意力机制层、归一化层和前向网络层;所述音频特征矩阵包括音频查询矩阵、音频键值矩阵和音频值矩阵;所述采用注意力机制模块对所述音频特征矩阵和所述音频张量进行特征叠加,生成音频前向归一化特征的步骤,包括:
5.根据权利要求3所述的多模态情感分析方...
【专利技术属性】
技术研发人员:周垣桦,冯广,钟婷,林健忠,盘皓然,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。