System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多模态感知融合的情感识别方法和机器人情感交互方法技术_技高网

多模态感知融合的情感识别方法和机器人情感交互方法技术

技术编号:41270269 阅读:3 留言:0更新日期:2024-05-11 09:24
本发明专利技术属于电数字数据处理及人机交互技术领域,具体涉及多模态感知融合的情感识别方法和机器人情感交互方法。本发明专利技术的情感识别方法将分别采用BERT模型、HuBERT模型、ViViT模型、ViViT模型提取得到的文本、语音、表情、动作特征进行特征级融合,再经过Transformer Decoder多层次的多头注意力机制和前馈神经网络处理得到情感识别结果。本发明专利技术的机器人情感交互方法以情感识别结果作为控制机器人语音回答、面部表情和身体动作的依据,结合大规模语言模型实现情景感知的语音回复生成、面部表情反馈和个性化的身体动作反馈,实现了智能化和人性化的交互效果。

【技术实现步骤摘要】

本专利技术属于电数字数据处理及人机交互,具体涉及多模态感知融合的情感识别方法和机器人情感交互方法


技术介绍

1、随着人工智能和机器人技术的发展,使机器人能够感知并适当响应人类情感,正在成为机器人设计的重要方向之一。然而,人类的情感表达和感知具有多模态的特点,包含面部表情、言语内容、语音语调、身体动作等复杂信息。要实现精确的情感识别和交互,必须解决如何对这些多源异构情感信息进行有效的感知、表示、理解和融合。

2、当前的情感识别技术多局限于单一模态,针对用户的面部表情、语气语调、语言用词以及行为动作进行单一的分析。传统的基于面部表情的情感识别,通过卷积神经网络(cnn)对面部表情的特征进行捕捉,将特征映射到情感类别上。基于语音的情感识别,通过从语音信号中提取诸如音调、语速、音量等声学特征以分析用户情感。基于文本的情感识别,主要通过将文本向量化,训练文本分类模型,通过单词权重以及上下文语义判断情感极性。基于行为动作的情感识别,则通过对用户各种情绪下的行为动作的特征进行学习,与不同的情绪标签进行匹配。但是这些方式都有一个共同的缺陷,那就是忽略了人在表达情感时的隐藏性,在现实情况下,完全依靠一种模态的信息来完全理解用户的情感是不可能的。例如,用户可以用很生气的语气说出不带有生气语义的话语,这个时候无论依靠语音语调还是言语内容都无法准确理解用户的情感。所以,针对单一模态在执行情感识别任务时的局限性,即无法全面的理解情感,排除用户人为设障,现在的情感识别研究方向逐渐倾向于对多种情感特征进行融合,以提高分析的可信度。

3、多模态情感识别通过融合表情、语音、语义以及动作的特征,利用多通道情感信息之间的互补性来提高情感识别的准确性。现有的多模态情感识别方法,使用双向lstm(bi-lstm)结合attention机制对语音特征进行提取,再使用预训练的glove词向量模型和lstm对文本特征进行提取,最后使用cnn对面部表情、头部旋转以及手势运动的特征进行提取,将三种模态的特征在全连接层上融合,最后映射到不同的情感标签上。然而,attention机制虽然可以学习不同时刻信息的重要程度,但是没有建模语音的长距离依赖关系,会导致一些相关联的语音特征丢失。此外,使用词向量作为lstm的输入在提取语句的语义信息上存在限制。通过诸如word2vec、glove等词向量模型得到的词向量都是基于次的分布特征得到的,它们并不能充分代表词的语义信息,尤其是多义词的不同意义。仅仅依赖词向量输入,由于词向量对语义的表示较为浅层和粗糙,lstm也很难学习到更抽象的更深层的语义逻辑。就算是使用了bi-lstm加强了对上下文的理解,依旧存在对长距离语义依赖学习能力较弱、对句子级别语义理解不足以及非连续习惯语义逻辑关系学习困难等问题。最后针对表情和动作特征的提取,虽然cnn在处理图像数据上有天然的优势,但是直接应用与提取表情和动作特征并没有考虑到这些数据的时序属性和上下文相关性。表情的变化和动作的演绎都具有时间连贯性,单纯的cnn无法学习两种模态信息的时间依赖关系以及内在联系,更不用说cnn仅仅学习局部特征,难以关联不同时刻的全局上下文信息。就算使用了3d-cnn可以同时学习表情和动作的时序和空间信息,也难以避免随时间增加计算量逐渐增大,缺乏泛用性,长程模式学习能力弱等问题。

4、鉴于以上所述,解决当前多模态感知融合方法识别情感出现的种种问题,以及实现机器人对用户情感变化的自然、准确的动态反馈,对推动智能人型机器人情感交互技术的进步和提升用户交互体验具有十分重要的现实意义。


技术实现思路

1、针对背景中提到的传统的单一模态的情感识别的不可靠性和多模态情感识别中采用各种不同的技术产生的诸如长距离学习能力弱、上下文信息关联能力弱以及在智能人型机器人情感交互应用上出现的问题。本专利技术以transformer模型为基础,提出了一种基于transformer模型技术的多模态感知融合情感识别方法并将其应用于设计了智能人型机器人情感交互方法。借由transformer模型的自注意力机制(self-attention),克服rnn和cnn等神经网络只能建模局部依赖的限制,提高模型的长距离学习能力,并且实现对整个特征序列进行全局注意,通过自注意力机制可以学习特征序列上任意两个位置的关联,有效建模上下文依赖关系。

2、本专利技术的第一方面是提供一种多模态感知融合的情感识别方法,将分别采用bert模型、hubert模型、vivit模型、vivit模型提取得到的文本、语音、表情、动作特征进行特征级融合,再经过transformer decoder多层次的多头注意力机制和前馈神经网络处理得到情感识别结果。

3、本专利技术提供的多模态感知融合的情感识别方法包括以下步骤:

4、步骤s1:使用bert模型从输入的文本中提取得到文本特征向量t;

5、步骤s2:使用hubert模型从输入的语音中提取得到语音特征向量v;

6、步骤s3:使用vivit模型从输入的视频中提取得到表情特征向量e;

7、步骤s4:使用vivit模型从输入的视频中提取得到动作特征向量m;

8、步骤s5:

9、s51. 将4个特征向量t、v、e、m通过重复策略映射到同一维度空间进行对齐;

10、s52. 将对齐后的4个特征向量使用concat拼接得到 dt+dv+de+dm,lm形的向量,完成特征融合;

11、s53. 将融合得到的特征向量输入transformer decoder中,每一个decoder中包含多层相同的模块,每个模块内有multi-head attention层和feed forward层;

12、s54. multi-head attention层内,query来自上一层的输出特征,key和value来自输入的融合特征;

13、s55. 通过scaled dot-product attention计算特征间的相关性,得到加权特征表示;

14、s56. feed forward层对attention输出特征作非线性映射;

15、s57. 每层模块使用残差连接和层正则化;

16、s58. 重复s54-s57,堆叠多个decoder层;

17、s59. 最终经过线性分类层,获取情感识别结果。

18、进一步地,在s51中,通过数据重复,将4个特征向量t、v、e、m中其他3个模态的数据向长度最长的1个模态的数据对齐。

19、进一步地,步骤s1包括:

20、s11. 对输入文本进行词嵌入预处理,通过将嵌入特征进行整合叠加,得到一个代表文本中各词汇的词向量序列;

21、s12. 将词向量序列输入bert模型,由bert对语境信息进行建模,得到bert输出的文本特征向量t。

22、其中的步骤s11包括:

23、a) 符号嵌入:将输入文本按本文档来自技高网...

【技术保护点】

1.多模态感知融合的情感识别方法,其特征在于:将分别采用BERT模型、HuBERT模型、ViViT模型、ViViT模型提取得到的文本、语音、表情、动作特征进行特征级融合,再经过Transformer Decoder多层次的多头注意力机制和前馈神经网络处理得到情感识别结果;包括以下步骤:

2.根据权利要求1所述的多模态感知融合的情感识别方法,其特征在于:在所述S51中,通过数据重复,将4个特征向量T、V、E、M中其他3个模态的数据向长度最长的1个模态的数据对齐。

3.根据权利要求1所述的多模态感知融合的情感识别方法,其特征在于:步骤S1包括:

4.根据权利要求3所述的多模态感知融合的情感识别方法,其特征在于:步骤S11包括:

5.根据权利要求1所述的多模态感知融合的情感识别方法,其特征在于:步骤S2包括:

6.根据权利要求1所述的多模态感知融合的情感识别方法,其特征在于:步骤S3包括:

7.根据权利要求1所述的多模态感知融合的情感识别方法,其特征在于:步骤S4包括:

8.一种机器人情感交互方法,其特征在于:利用机器人上装配的麦克风阵列以及深度相机获取原始音频、视频数据,使用语音识别接口将原始音频转化为文本信息;

9.根据权利要求8所述的机器人情感交互方法,其特征在于:

10.根据权利要求8所述的机器人情感交互方法,其特征在于:机器人给出身体动作的反馈包括以下步骤:

...

【技术特征摘要】

1.多模态感知融合的情感识别方法,其特征在于:将分别采用bert模型、hubert模型、vivit模型、vivit模型提取得到的文本、语音、表情、动作特征进行特征级融合,再经过transformer decoder多层次的多头注意力机制和前馈神经网络处理得到情感识别结果;包括以下步骤:

2.根据权利要求1所述的多模态感知融合的情感识别方法,其特征在于:在所述s51中,通过数据重复,将4个特征向量t、v、e、m中其他3个模态的数据向长度最长的1个模态的数据对齐。

3.根据权利要求1所述的多模态感知融合的情感识别方法,其特征在于:步骤s1包括:

4.根据权利要求3所述的多模态感知融合的情感识别方法,其特征...

【专利技术属性】
技术研发人员:赖睿贺亮赵凯星王硕赵明月王若晗
申请(专利权)人:江苏云幕智造科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1