一种基于多模态信息双重融合的AR互动情感识别方法和系统技术方案

技术编号：39296146 阅读：9 留言：0更新日期：2023-11-07 11:03

本申请提供了一种基于多模态信息双重融合的AR互动情感识别方法和系统，其中，方法包括：获取目标对象的多个目标模态对应的第一模态关键特征；将多个目标模态投影后的特征与融合情感特征向量作为输入，构建自监督学习任务；通过情感识别为主要任务和子任务进行联合训练，以此得到由情感识别为主要任务的所述交叉熵损失函数和子任务的自监督学习损失函数构成的总损失函数；基于总损失函数对待处理神经网络模型进行训练，直至待处理神经网络模型的总损失函数收敛，得到目标神经网络模型。本申请的技术方案，提高情感识别的全面性，保障了目标神经网络模型的识别可靠性。了目标神经网络模型的识别可靠性。了目标神经网络模型的识别可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态信息双重融合的AR互动情感识别方法和系统

[0001]本申请涉及增强现实
，尤其涉及一种基于多模态信息双重融合的AR互动情感识别方法和系统。

技术介绍

[0002]在线上文化旅游传播过程中，为了提升游客体验和情感交流，基于多模态信息融合的AR互动情感识别方法成为一个备受关注的研究方向。
[0003]传统的文化旅游场景通常只能通过有限的感官来传递信息，而AR技术能够通过文本、声学、视觉等多模态信息，进一步增强游客与文化遗产之间的情感互动。然而，情感识别作为AR互动体验的关键环节，面临着重要的挑战。目前的方法要么仅考虑单一的模态信息，要么忽略了不同感官所传递的情感信息存在复杂的差异和融合问题，导致情感状态的表达不够准确和全面。
[0004]因此，目前有关文旅的AR情感识别互动难以提供更加丰富、真实和个性化的情感交流体验，影响了游客对文化旅游场景的情感共鸣和参与度。
[0005]研究人员发现，现有技术在情感识别领域通常仅单一使用文本、声觉和视觉模态中的某一模态信息进行情感分析，忽略了多模态信息融合对情感识别的综合影响。此外，基于多模态信息的情感识别方法将每种模态的信息看作是同等重要的，因此通过简单的拼接来进行融合，其缺乏对各个模态之间关联性和重要程度的充分考虑，无法全面捕捉情感信息的多模态表达。此外，现有技术在自监督学习方面的应用相对有限，未能充分利用各模态之间的互信息，导致在融合表示中可能存在模态偏差，如噪声过多、共性过少，影响情感识别的准确性。
[0006]申请内容<...

【技术保护点】

【技术特征摘要】
1.一种基于多模态信息双重融合的AR互动情感识别方法，其特征在于，包括：获取目标对象的多个目标模态对应的第一模态关键特征；所述目标模态包括文本编码通道、声学编码通道以及视觉编码通道；所述第一模态关键特征为文本编码通道的情感特征向量、声学编码通道的情感特征向量以及视觉编码通道的情感特征向量；将所述第一模态关键特征输入到基于注意力机制的特征融合模块，通过捕捉关联关系最终得到的融合情感特征向量；将多个目标模态对应的第一模态关键特征投影到预设共同的空间内分别得到每个目标模态投影后的特征，将多个目标模态投影后的特征与融合情感特征向量作为输入，构建自监督学习任务；所述自监督学习任务包括三个子任务，三个子任务分别用于在实现求取目标模态投影后的特征与融合情感特征向量之间的互信息最大化之后，再通过求取所述互信息最大化之间的差异来表示子任务的自监督学习损失函数；构建情感识别作为主要任务的交叉熵损失函数；通过情感识别为主要任务和子任务进行联合训练，以此得到由情感识别为主要任务的所述交叉熵损失函数和子任务的自监督学习损失函数构成的总损失函数；基于所述总损失函数对待处理神经网络模型进行训练，直至待处理神经网络模型的总损失函数收敛，得到目标神经网络模型。2.根据权利要求1所述的基于多模态信息双重融合的AR互动情感识别方法，其特征在于，所述第一模态关键特征为文本编码通道的情感特征向量F
t
、声学编码通道的情感特征向量F
a
以及视觉编码通道的情感特征向量F
v
。3.根据权利要求2所述的基于多模态信息双重融合的AR互动情感识别方法，其特征在于，将所述第一模态关键特征输入到基于注意力机制的特征融合模块，通过捕捉关联关系最终得到的融合情感特征向量，具体包括：将所述第一模态关键特征输入到基于注意力机制的特征融合模块，然后将文本编码通道的情感特征向量F
t
、声学编码通道的情感特征向量F
a
以及视觉编码通道的情感特征向量F
v
分别转换为三个向量矩阵Q、K、V；所述三个向量矩阵Q、K、V是使用线性投影的查询、键和值，计算公式如下所示：所述三个向量矩阵Q、K、V是使用线性投影的查询、键和值，计算公式如下所示：所述三个向量矩阵Q、K、V是使用线性投影的查询、键和值，计算公式如下所示：其中,Q
x
、K
x
、V
x
分别是文本编码通道对应线性投影的查询、键和值；Q
y
、K
y
、V
y
分别是声学编码通道对应线性投影的查询、键和值；Q
z
、K
z
、V
z
分别是视觉编码通道对应线性投影的查询、键和值；和以及是对应的投影矩阵；计算查询和键的点积，将点积的计算结果按比例缩放并按行排列，并由softmax函数归一化后以获得各编码通道对应的注意力权重；
其中，Z
t
、Z
a
和Z
v
分别表示文本编码通道、声学编码通道以及视觉编码通道的self
‑
attention层的输出,d
k
为输入的特征向量的维度；然后根据所述编码通道对应的注意力权重，将所述文本编码通道的情感特征向量F
t
、声学编码通道的情感特征向量F
a
以及视觉编码通道的情感特征向量F
v
分别经过全局最大池化层降维处理，得到一维的文本特征向量S
t
、一维的声学特征向量S
a
和一维的视觉特征向量S
v
；最后将输出的三个一维的情感特征向量整合在一个目标向量中，得到的目标向量用F
fusion
表示，如下所示：F
fusion
＝Concat[S
t
,S
a
,S
v
]；所述目标向量为融合情感特征向量F
fusion
。4.根据权利要求3所述的基于多模态信息双重融合的AR互动情感识别方法，其特征在于，将多个目标模态对应的第一模态关键特征投影到预设共同的空间内分别得到每个目标模态投影后的特征，将多个目标模态投...

【专利技术属性】
技术研发人员：周广益，杨燕飞，于中阳，张兵杰，
申请(专利权)人：上海指旺信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人