一种跨模态情感分析方法、训练方法、装置及设备制造方法及图纸

技术编号：41207966 阅读：2 留言：0更新日期：2024-05-09 23:29

本申请涉及一种跨模态情感分析方法、训练方法、装置及设备，涉及人工智能的领域，该方法包括获取待分析音频，对待分析音频进行特征提取，得到文本向量以及语音向量，基于文本向量生成文本查询向量、文本键向量以及文本值向量，基于语音向量生成语音查询向量、语音键向量以及语音值向量，基于文本查询向量、语音键向量以及语音值向量进行特征提取，得到第一融合特征向量，基于语音查询向量、文本键向量以及文本值向量进行特征提取，得到第二融合特征向量，基于第一融合特征向量以及第二融合特征向量进行情感类别识别，得到待分析音频的情感类别。本申请具有提高情感分类识别的准确性的效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能的领域，尤其是涉及一种跨模态情感分析方法、训练方法、装置及设备。

技术介绍

1、随着人工智能的发展，人机对话交互的需求广泛出现在智能家居等场景中，通过分析人员输出的语音音频来感知人员情感，例如高兴、伤心等。目前在对对人员情感进行识别时，通常将依靠单一模态进行，例如将人员输出的音频转化成文本，仅通过文本分析人员情感，或者将人员输出的音频转化成语音向量，仅通过语音向量分析人员情感。单一模态包含的表征人员情感的特征信息较少，通过单一模态分析人员情感较为片面，导致情感分类识别准确性较低。

技术实现思路

1、为了提高情感分类识别的准确性，本申请提供一种跨模态情感分析方法、训练方法、装置及设备。

2、第一方面，本申请提供一种跨模态情感分析方法，采用如下的技术方案：

3、一种跨模态情感分析方法，包括：

4、获取待分析音频；

5、将所述待分析音频输入至训练好的网络模型进行情感分类处理，得到所述待分析音频的情感类别，所述训练好的网络模型是根据获取到的训练样本集对网络模型进行更新训练得到的；

6、所述进行情感分类处理，得到所述待分析音频的情感类别包括：

7、对所述待分析音频进行特征提取，得到文本向量以及语音向量；

8、基于所述文本向量生成文本查询向量、文本键向量以及文本值向量，基于所述语音向量生成语音查询向量、语音键向量以及语音值向量；

9、基于所述文本查询向量、语音键向量以及语音值向量进

10、基于所述第一融合特征向量以及第二融合特征向量进行情感类别识别，得到所述待分析音频的情感类别。

11、通过采用上述技术方案，获取到待分析音频后，训练好的网络模型对待分析音频进行特征提取，从而得到文本向量和语音向量，基于文本向量生成文本查询向量、文本键向量和文本值向量，基于语音向量生成语音查询向量、语音键向量和语音值向量，便于后续进行特征交互融合，将文本查询向量与语音键向量和语音值向量进行特征提取，从而在文本模态中补充语音模态中的特征信息，得到第一融合特征向量，将语音查询向量与文本键向量和文本值向量进行特征提取，从而在语音模态中补充文本模态中的特征信息，得到第二融合特征向量，第一融合特征向量和第二融合特征向量均考虑了另一模态中的特征，因此基于第一融合特征向量和第二融合特征向量进行情感类别识别，相较于基于单一模态进行情感识别更准确。

12、在另一种可能实现的方式中，所述对所述待分析音频进行特征提取，得到文本向量以及语音向量，包括：

13、对所述待分析音频进行文本特征提取，得到初始文本向量，基于所述初始文本向量生成第一查询向量、第一键向量以及第一值向量，对所述第一查询向量、第一键向量以及第一值向量进行多头自注意力计算并拼接得到文本拼接向量，将所述文本拼接向量与所述初始文本向量进行残差连接，得到第一残差连接向量，将所述第一残差连接向量输入至位置前馈网络中进行位置嵌入处理，得到第一位置嵌入处理结果，将所述第一位置嵌入处理结果与所述第一残差连接向量进行残差连接得到所述文本向量；

14、和，

15、对所述待分析音频进行语音特征提取，得到初始语音向量，基于所述初始语音向量生成第二查询向量、第二键向量以及第二值向量，对所述第二查询向量、第二键向量以及第二值向量进行多头自注意力计算并拼接得到语音拼接向量，将所述语音拼接向量与所述初始语音向量进行残差连接，得到第二残差连接向量，将所述第二残差连接向量输入至位置前馈网络中进行位置嵌入处理，得到第二位置嵌入处理结果，将所述第二位置嵌入处理结果与所述第二残差连接向量进行残差连接得到所述语音向量。

16、通过采用上述技术方案，将初始文本向量和初始语音向量均转化成查询向量、键向量和值向量，然后通过多头自注意力机制实现单个模态内特征数据的增强，进而增强文本模态数据和语音模态数据中蕴含的情感信息。

17、在另一种可能实现的方式中，所述基于所述文本查询向量、语音键向量以及语音值向量进行特征提取，得到第一融合特征向量，包括：

18、对所述文本查询向量、语音键向量以及语音值向量进行多头自注意力计算并拼接得到第一融合拼接向量；

19、将所述第一融合拼接特征向量与所述文本向量进行残差连接，得到第三残差连接向量；

20、将所述第三残差连接向量输入至位置前馈网络中进行位置嵌入处理，得到第三位置嵌入处理结果；

21、将所述第三位置嵌入处理结果与所述第三残差连接向量进行残差连接得到所述第一融合特征向量。

22、通过采用上述技术方案，将文本查询向量、语音键向量和语音值向量进行多头自注意力运算拼接得到第一融合拼接向量，然后加入位置嵌入处理，从而增强文本模态在交互过程中的特征信息以及补充语音模态间的特征。

23、在另一种可能实现的方式中，所述基于所述语音查询向量、文本键向量以及文本值向量进行特征提取，得到第二融合特征向量，包括：

24、对所述语音查询向量、文本键向量以及文本值向量进行多头自注意力计算并拼接得到第二融合拼接向量；

25、将所述第二融合拼接向量与所述语音向量进行残差连接，得到第四残差连接向量；

26、将所述第四残差连接向量输入至位置前馈网络中进行位置嵌入处理，得到第四位置嵌入处理结果；

27、将所述第四位置嵌入处理结果与所述第四残差连接向量进行残差连接得到所述第二融合特征向量。

28、通过采用上述技术方案，将语音查询向量、文本键向量和文本值向量进行多头自注意力运算拼接得到第二融合拼接向量，然后加入位置嵌入处理，从而增强语音模态在交互过程中的特征信息以及补充文本模态间的特征。

29、在另一种可能实现的方式中，所述基于所述第一融合特征向量以及第二融合特征向量进行情感类别识别，得到所述待分析音频的情感类别，包括：

30、将所述第一融合特征向量输入至双向长短时记忆网络中进行序列关系增强处理，得到第一中间向量，将所述第二融合特征向量输入至双向长短时记忆网络中进行序列关系增强处理，得到第二中间向量；

31、基于所述第一中间向量以及第二中间向量进行情感分类识别，得到所述待分析音频的情感类别。

32、通过采用上述技术方案，将第一融合特征向量和第二融合特征向量分别输入至双向长短时网络中，从而增强时序上的情感表达特征，进而提高后续情感分别的准确性。

33、在另一种可能实现的方式中，所述基于所述第一中间向量以及第二中间向量进行情感分类识别，得到所述待分析音频的情感类别，包括：

34、将所述第一中间向量以及第二中间向量进行拼接得到最终融合向量；

35、将所述最终融合向量进行全连接映射并进行归一化，得到所述待分析音频的情感类别。<本文档来自技高网...

【技术保护点】

1.一种跨模态情感分析方法，其特征在于，包括：

2.根据权利要求1所述的一种跨模态情感分析方法，其特征在于，所述对所述待分析音频进行特征提取，得到文本向量以及语音向量，包括：

3.根据权利要求1所述的一种跨模态情感分析方法，其特征在于，所述基于所述文本查询向量、语音键向量以及语音值向量进行特征提取，得到第一融合特征向量，包括：

4.根据权利要求1所述的一种跨模态情感分析方法，其特征在于，所述基于所述语音查询向量、文本键向量以及文本值向量进行特征提取，得到第二融合特征向量，包括：

5.根据权利要求1所述的一种跨模态情感分析方法，其特征在于，所述基于所述第一融合特征向量以及第二融合特征向量进行情感类别识别，得到所述待分析音频的情感类别，包括：

6.根据权利要求5所述的一种跨模态情感分析方法，其特征在于，所述基于所述第一中间向量以及第二中间向量进行情感分类识别，得到所述待分析音频的情感类别，包括：

7.一种跨模态情感分析的模型训练方法，其特征在于，包括：

8.一种跨模态情感分析装置，其特征在于，包括：</p>

9.一种电子设备，其特征在于，其包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机中执行时，令所述计算机执行权利要求1～6任一项所述的一种跨模态情感分析方法。

...

【技术特征摘要】

1.一种跨模态情感分析方法，其特征在于，包括：

2.根据权利要求1所述的一种跨模态情感分析方法，其特征在于，所述对所述待分析音频进行特征提取，得到文本向量以及语音向量，包括：

5.根据权利要求1所述的一种跨模态情感分析方法，其特征在于，所述基于所述第一融合...

【专利技术属性】
技术研发人员：张佳惠，
申请(专利权)人：张佳惠，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人