System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多模态特征融合的用户情绪识别方法及系统技术方案_技高网

基于多模态特征融合的用户情绪识别方法及系统技术方案

技术编号:40158581 阅读:8 留言:0更新日期:2024-01-26 23:33
本发明专利技术涉及情绪识别技术领域,特别是涉及一种基于多模态特征融合的用户情绪识别方法及系统,所述方法包括以下步骤:获取图像阵列、声音信号、资产信息;对三个模态提取原始特征;计算原始特征得到查询向量、键向量、值向量;通过自注意力机制获取强化映射特征;获取图像模态的隐层特征的保留特征;通过拼接得到融合特征;得到第二个融合特征;通过信息筛选与融合得到双模态融合特征;拼接得到全面特征;根据全面特征预测用户的情绪类型。本发明专利技术能够有效提高用户情绪识别精度。

【技术实现步骤摘要】

本专利技术涉及情绪识别,特别是涉及一种基于多模态特征融合的用户情绪识别方法及系统


技术介绍

1、随着数字化的发展,金融机构正在积极探索和推广基于音视频或智能机器人的远程“非接触式”服务。然而在服务过程中,客服人员和智能客服无法精准感知用户的情绪,难以了解用户的满意度,进而无法精确准确判断所提供的服务是否真正解决了用户的问题,阻碍了了解用户的真实需求。

2、情绪识别的技术作为近几年的研究热点,为解决这个问题提供了可能的方案。通过摄像头等设备获取用户的面部信息,然后通过构建神经网络进行情绪识别。

3、然而,单纯依赖面部图像这一种模态数据进行识别的精度往往有限。此外,用户在进行视频面签等业务时还产生了许多其他模态的信息,比如用户语音信息以及描述用户资产信息的离散型结构性数据等。如果能够将这些不同模态的信息进行有效的融合,将能提高模型的情绪识别精度。当前的多模态融合方法主要可以分为三类:特征层融合、模型层融合和决策层融合。这些方法主要是利用各模态单独决策结果“好而不同”的特性,设计合适的互补促进策略。然而,这些方法往往不能进一步挖掘各模态之间的隐含信息,也忽视了各个模态之间的信息交互。此外,尽管自注意力模型因为其高效的并行计算能力和长距离的特征依赖捕捉能力等优势非常适合应用在多模态融合过程中,但如何将自注意力模型有效地应用于多模态的特征融合,仍是一个需要研究的问题。如果我们能够利用自注意力模型,对多模态的特征信息进行互补融合,并将这种融合方法应用到用户情绪识别上,将有可能大大提高情绪识别的精度,为实际业务的发展提供强大的支持。


技术实现思路

1、为此,本专利技术提供了一种基于多模态特征融合的用户情绪识别方法及系统,解决了现有技术中对于用户情绪识别精度不高的问题。

2、为实现上述目的,本专利技术一方面提供一种基于多模态特征融合的用户情绪识别方法,该方法包括:

3、响应待识别用户的音视频服务请求,所述音视频服务请求包括所述待识别用户的身份信息、视频信息和语音信息;

4、基于所述身份信息确定所述待识别用户的资产数值,通过所述视频信息提取图像模态的第一原始特征,通过所述语音信息提取语音模态的第二原始特征,通过所述资产数值提取数值模态的第三原始特征;

5、处理图像模态与语音模态的所述第一原始特征与所述第二原始特征获得特征向量,然后通过自注意力机制获得图像模态特征对于语音模态特征的强化映射特征,通过自适应特征保留单元获得图像模态的隐层特征的保留特征,将所述强化映射特征与所述保留特征拼接获得融合特征,在对所述融合特征筛选融合后获得双模态融合特征;

6、基于所述双模态融合特征和数值模态的原始特征获得图像、语音、数值三模态融合后的全面特征;

7、根据所述全面特征识别所述待识别用户在所述音视频服务中的情绪类型;

8、通过所述视频信息提取图像模态的第一原始特征包括:

9、设置标准人脸轮廓区段,确定所述标准人脸轮廓区段的标准长度;

10、从所述视频信息中提取待识别用户的人脸轮廓,并按照所述标准长度将所述人脸轮廓进行多次切分,形成待对比区段,并将所述待对比区段分别与所述标准人脸轮廓区段进行比较;

11、确定在所述待对比区段中,与标准人脸轮廓区段的相似度大于90%的目标区段,确定所述目标区段在所述待对比区段中的占比,

12、预设标准占比;

13、将所述目标区段在所述待对比区段中的占比和所述标准占比的关系,确定对所述目标区段的筛选标准。

14、进一步地,所述身份信息通过移动终端发出的音视频服务请求获取,所述视频信息在响应所述音视频服务请求的过程中通过网络摄像头获得,所述语音信息在响应所述音视频服务请求的过程中通过麦克风获得。

15、进一步地,确定对所述目标区段的筛选标准的过程包括:

16、当所述目标区段在所述待对比区段中的占比小于所述标准占比时,则采用修正系数修正所述待对比区段与标准人脸轮廓区段的相似度。

17、进一步地,确定待对比区段与标准人脸轮廓区段的相似度s采用公式(1)来计算;

18、相似度s=n/n0+f/f0 (1),

19、其中n表示所述待对比区段中曲率变化次数,n0表示所述标准人脸轮廓区段中曲率变化次数,f表示待对比区段中曲率变化的平均幅度,f0表示所述标准人脸轮廓区段中曲率变化的标准幅度。

20、进一步地,原始特征的提取是通过优化的神经网络模型进行的,使用vgg16提取第一原始特征、使用mfcc提取第二原始特征、使用主成分分析提取第三原始特征。

21、进一步地,处理所述第一原始特征与所述第二原始特征获得特征向量,其方式为通过权重矩阵与所述第一原始特征交叉相乘得到图像模态的查询向量,通过权重矩阵与所述第二原始特交叉相乘得到语音模态的键向量与值向量,权重矩阵是基于transformer模型的计算流程随机初始化的。

22、进一步地,所述强化映射特征是通过基于transformer模型的自注意力机制进行所述特征向量得分计算得到。

23、进一步地,所述图像模态的隐层特征通过卷积神经网络操作进行提取,经由自适应特征保留单元决定保留和转发的特征比例。自适应特征保留单元是基于门控卷积单元设计的学习性网络结构,整个模型全程一起训练。

24、进一步地,通过将强化映射特征与保留特征按维度拼接,形成第一融合特征。重复强化映射特征与保留特征的获取过程得到另一组强化映射特征与保留特征,再次拼接后形成第二融合特征。两个融合特征经过信息筛选与融合过程,得到双模态融合特征。

25、进一步地,所述两个融合特征的信息筛选与融合过程由门控卷积结构执行。

26、进一步地,所述全面特征的获得是所述双模态融合特征与第三原始特征通过全连接fc层拼接获得,其中层数为3,每层的节点数分别为特征数量、4096、512,最后一层输出的节点数为类别数。

27、进一步地,对所述待识别用户情绪类型的识别是通过预先训练的深度学习模型进行的,该模型是基于本专利技术得到的全面特征训练得到的,用于预测待识别用户的情绪类型。

28、另一方面提供一种基于多模态特征融合的用户情绪识别系统,该系统包括:

29、数据采集模块,用于响应待识别用户的音视频服务请求,所述服务请求中包含所述待识别用户的身份信息,获取用户的图像阵列和语音信号,并根据所述身份信息确定所述用户的资产信息。

30、特征提取模块,用于从图像阵列、语音信号和资产信息中提取原始特征,使用vgg16提取图像特征、使用mfcc提取语音特征、使用主成分分析提取数值特征。

31、跨模态特征融合模块,用于处理图像模态与语音模态的所述原始特征,通过自注意力机制获得图像模态特征对于语音模态特征的强化映射特征,通过自适应特征保留单元获得图像模态的隐层特征的保留特征,将所述强化映射特征与所述保留特征本文档来自技高网...

【技术保护点】

1.一种基于多模态特征融合的用户情绪识别方法,其特征在于,包括:

2.根据权利要求1所述的基于多模态特征融合的用户情绪识别方法,其特征在于,所述身份信息通过移动终端发出的音视频服务请求获取,所述视频信息在响应所述音视频服务请求的过程中通过网络摄像头获得,所述语音信息在响应所述音视频服务请求的过程中通过麦克风获得。

3.根据权利要求2所述的基于多模态特征融合的用户情绪识别方法,其特征在于,确定对所述目标区段的筛选标准的过程包括:

4.根据权利要求3所述的基于多模态特征融合的用户情绪识别方法,其特征在于,确定待对比区段与标准人脸轮廓区段的相似度S采用公式(1)来计算;

5.根据权利要求4所述的基于多模态特征融合的用户情绪识别方法,其特征在于,处理所述第一原始特征与所述第二原始特征获得特征向量,其方式为通过权重矩阵与所述第一原始特征交叉相乘得到图像模态的查询向量,通过权重矩阵与所述第二原始特交叉相乘得到语音模态的键向量与值向量,权重矩阵是基于transformer模型的计算流程随机初始化的;

6.根据权利要求5所述的基于多模态特征融合的用户情绪识别方法,其特征在于,所述图像模态的隐层特征通过卷积神经网络操作进行提取,经由自适应特征保留单元决定保留和转发的特征比例,自适应特征保留单元是基于门控卷积单元设计的学习性网络结构,整个模型全程一起训练。

7.根据权利要求6所述的基于多模态特征融合的用户情绪识别方法,其特征在于,通过将强化映射特征与保留特征按维度拼接,形成第一融合特征,重复强化映射特征与保留特征的获取过程得到另一组强化映射特征与保留特征,再次拼接后形成第二融合特征,两个融合特征经过信息筛选与融合过程,得到双模态融合特征;

8.根据权利要求7所述的基于多模态特征融合的用户情绪识别方法,其特征在于,所述全面特征的获得是所述双模态融合特征与第三原始特征通过全连接FC层拼接获得,其中层数为3,每层的节点数分别为特征数量、4096、512,最后一层输出的节点数为类别数。

9.根据权利要求8所述的基于多模态特征融合的用户情绪识别方法,其特征在于,对所述待识别用户情绪类型的识别是通过预先训练的深度学习模型进行的,该模型是基于所述全面特征训练得到的,用于预测待识别用户的情绪类型。

10.一种基于多模态特征融合的用户情绪识别系统,其特征在于,包括:

...

【技术特征摘要】

1.一种基于多模态特征融合的用户情绪识别方法,其特征在于,包括:

2.根据权利要求1所述的基于多模态特征融合的用户情绪识别方法,其特征在于,所述身份信息通过移动终端发出的音视频服务请求获取,所述视频信息在响应所述音视频服务请求的过程中通过网络摄像头获得,所述语音信息在响应所述音视频服务请求的过程中通过麦克风获得。

3.根据权利要求2所述的基于多模态特征融合的用户情绪识别方法,其特征在于,确定对所述目标区段的筛选标准的过程包括:

4.根据权利要求3所述的基于多模态特征融合的用户情绪识别方法,其特征在于,确定待对比区段与标准人脸轮廓区段的相似度s采用公式(1)来计算;

5.根据权利要求4所述的基于多模态特征融合的用户情绪识别方法,其特征在于,处理所述第一原始特征与所述第二原始特征获得特征向量,其方式为通过权重矩阵与所述第一原始特征交叉相乘得到图像模态的查询向量,通过权重矩阵与所述第二原始特交叉相乘得到语音模态的键向量与值向量,权重矩阵是基于transformer模型的计算流程随机初始化的;

6.根据权利要求5所述的基于多模态特征融合的用户情绪识别方法,其特征在于,所...

【专利技术属性】
技术研发人员:杨志谭林邓日晓杨良王武杰熊彪
申请(专利权)人:湖南三湘银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1