多模态感知融合的情感识别方法和机器人情感交互方法技术

技术编号：41270269 阅读：3 留言：0更新日期：2024-05-11 09:24

本发明专利技术属于电数字数据处理及人机交互技术领域，具体涉及多模态感知融合的情感识别方法和机器人情感交互方法。本发明专利技术的情感识别方法将分别采用BERT模型、HuBERT模型、ViViT模型、ViViT模型提取得到的文本、语音、表情、动作特征进行特征级融合，再经过Transformer Decoder多层次的多头注意力机制和前馈神经网络处理得到情感识别结果。本发明专利技术的机器人情感交互方法以情感识别结果作为控制机器人语音回答、面部表情和身体动作的依据，结合大规模语言模型实现情景感知的语音回复生成、面部表情反馈和个性化的身体动作反馈，实现了智能化和人性化的交互效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于电数字数据处理及人机交互，具体涉及多模态感知融合的情感识别方法和机器人情感交互方法。

技术介绍

1、随着人工智能和机器人技术的发展，使机器人能够感知并适当响应人类情感，正在成为机器人设计的重要方向之一。然而，人类的情感表达和感知具有多模态的特点，包含面部表情、言语内容、语音语调、身体动作等复杂信息。要实现精确的情感识别和交互，必须解决如何对这些多源异构情感信息进行有效的感知、表示、理解和融合。

2、当前的情感识别技术多局限于单一模态，针对用户的面部表情、语气语调、语言用词以及行为动作进行单一的分析。传统的基于面部表情的情感识别，通过卷积神经网络（cnn）对面部表情的特征进行捕捉，将特征映射到情感类别上。基于语音的情感识别，通过从语音信号中提取诸如音调、语速、音量等声学特征以分析用户情感。基于文本的情感识别，主要通过将文本向量化，训练文本分类模型，通过单词权重以及上下文语义判断情感极性。基于行为动作的情感识别，则通过对用户各种情绪下的行为动作的特征进行学习，与不同的情绪标签进行匹配。但是这些方式都有一个共同的缺陷，那就是忽略了人在表达情感时的隐藏性，在现实情况下，完全依靠一种模态的信息来完全理解用户的情感是不可能的。例如，用户可以用很生气的语气说出不带有生气语义的话语，这个时候无论依靠语音语调还是言语内容都无法准确理解用户的情感。所以，针对单一模态在执行情感识别任务时的局限性，即无法全面的理解情感，排除用户人为设障，现在的情感识别研究方向逐渐倾向于对多种情感特征进行融合，以提高分析的可信度。

4、鉴于以上所述，解决当前多模态感知融合方法识别情感出现的种种问题，以及实现机器人对用户情感变化的自然、准确的动态反馈，对推动智能人型机器人情感交互技术的进步和提升用户交互体验具有十分重要的现实意义。

技术实现思路

1、针对背景中提到的传统的单一模态的情感识别的不可靠性和多模态情感识别中采用各种不同的技术产生的诸如长距离学习能力弱、上下文信息关联能力弱以及在智能人型机器人情感交互应用上出现的问题。本专利技术以transformer模型为基础，提出了一种基于transformer模型技术的多模态感知融合情感识别方法并将其应用于设计了智能人型机器人情感交互方法。借由transformer模型的自注意力机制（self-attention），克服rnn和cnn等神经网络只能建模局部依赖的限制，提高模型的长距离学习能力，并且实现对整个特征序列进行全局注意，通过自注意力机制可以学习特征序列上任意两个位置的关联，有效建模上下文依赖关系。

2、本专利技术的第一方面是提供一种多模态感知融合的情感识别方法，将分别采用bert模型、hubert模型、vivit模型、vivit模型提取得到的文本、语音、表情、动作特征进行特征级融合，再经过transformer decoder多层次的多头注意力机制和前馈神经网络处理得到情感识别结果。

3、本专利技术提供的多模态感知融合的情感识别方法包括以下步骤：

4、步骤s1：使用bert模型从输入的文本中提取得到文本特征向量t；

5、步骤s2：使用hubert模型从输入的语音中提取得到语音特征向量v；

6、步骤s3：使用vivit模型从输入的视频中提取得到表情特征向量e；

7、步骤s4：使用vivit模型从输入的视频中提取得到动作特征向量m；

8、步骤s5：

9、s51. 将4个特征向量t、v、e、m通过重复策略映射到同一维度空间进行对齐；

10、s52. 将对齐后的4个特征向量使用concat拼接得到 dt+dv+de+dm，lm形的向量，完成特征融合；

11、s53. 将融合得到的特征向量输入transformer decoder中，每一个decoder中包含多层相同的模块，每个模块内有multi-head attention层和feed forward层；

12、s54. multi-head attention层内，query来自上一层的输出特征，key和value来自输入的融合特征；

13、s55. 通过scaled dot-product attention计算特征间的相关性，得到加权特征表示；

14、s56. feed forward层对attention输出特征作非线性映射；

15、s57. 每层模块使用残差连接和层正则化；

16、s58. 重复s54-s57，堆叠多个decoder层；

17、s59. 最终经过线性分类层，获取情感识别结果。

18、进一步地，在s51中，通过数据重复，将4个特征向量t、v、e、m中其他3个模态的数据向长度最长的1个模态的数据对齐。

19、进一步地，步骤s1包括：

20、s11. 对输入文本进行词嵌入预处理，通过将嵌入特征进行整合叠加，得到一个代表文本中各词汇的词向量序列；

21、s12. 将词向量序列输入bert模型，由bert对语境信息进行建模，得到bert输出的文本特征向量t。

22、其中的步骤s11包括：

23、a) 符号嵌入：将输入文本按本文档来自技高网...

【技术保护点】

1.多模态感知融合的情感识别方法，其特征在于：将分别采用BERT模型、HuBERT模型、ViViT模型、ViViT模型提取得到的文本、语音、表情、动作特征进行特征级融合，再经过Transformer Decoder多层次的多头注意力机制和前馈神经网络处理得到情感识别结果；包括以下步骤：

2.根据权利要求1所述的多模态感知融合的情感识别方法，其特征在于：在所述S51中，通过数据重复，将4个特征向量T、V、E、M中其他3个模态的数据向长度最长的1个模态的数据对齐。

3.根据权利要求1所述的多模态感知融合的情感识别方法，其特征在于：步骤S1包括：

4.根据权利要求3所述的多模态感知融合的情感识别方法，其特征在于：步骤S11包括：

5.根据权利要求1所述的多模态感知融合的情感识别方法，其特征在于：步骤S2包括：

6.根据权利要求1所述的多模态感知融合的情感识别方法，其特征在于：步骤S3包括：

7.根据权利要求1所述的多模态感知融合的情感识别方法，其特征在于：步骤S4包括：

8.一种机器人情感交互方法，其特

9.根据权利要求8所述的机器人情感交互方法，其特征在于：

10.根据权利要求8所述的机器人情感交互方法，其特征在于：机器人给出身体动作的反馈包括以下步骤：

...

【技术特征摘要】

1.多模态感知融合的情感识别方法，其特征在于：将分别采用bert模型、hubert模型、vivit模型、vivit模型提取得到的文本、语音、表情、动作特征进行特征级融合，再经过transformer decoder多层次的多头注意力机制和前馈神经网络处理得到情感识别结果；包括以下步骤：

2.根据权利要求1所述的多模态感知融合的情感识别方法，其特征在于：在所述s51中，通过数据重复，将4个特征向量t、v、e、m中其他3个模态的数据向长度最长的1个模态的数据对齐。

3.根据权利要求1所述的多模态感知融合的情感识别方法，其特征在于：步骤s1包括：

4.根据权利要求3所述的多模态感知融合的情感识别方法，其特征...

【专利技术属性】
技术研发人员：赖睿，贺亮，赵凯星，王硕，赵明月，王若晗，
申请(专利权)人：江苏云幕智造科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人