一种基于关系子图交互的多模态对话动态情感识别方法技术

技术编号：43094834 阅读：32 留言：0更新日期：2024-10-26 09:40

本发明专利技术属于多模态情感识别和对话系统领域，涉及一种基于关系子图交互的多模态对话动态情感识别方法，包括：获取多模态对话数据集；将多模态对话数据集的数据输入模态特征提取器提取每个模态的特征，得到文本模态特征、听觉模态特征以及视觉模态特征；将听觉模态特征和视觉模态特征分别输入视听模态编码器，得到最终的听觉模态特征和视觉模态视觉特征；将文本模态特征输入关系子图交互模块，得到最终的文本模态特征；将最终的文本模态特征、听觉模态特征以及视觉模态特征均输入情感分类器，得到情感识别结果；本发明专利技术根据情感依赖关系将对话建模为说话者间情感依赖子图和说话者自身情感依赖子图，从而更好地捕捉和理解多元对话场景中的情感动态。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多模态情感识别和对话系统领域，涉及一种基于关系子图交互的多模态对话动态情感识别方法。

技术介绍

1、情感是人类固有的，指导着人类的行为，并指示着潜在的思维过程。多模态对话情感识别对推进人机交互进入情感计算新阶段意义重大，该任务旨在根据连续对话过程中对话双方或多方传达的外部信息包括语言文字、语音语调、面部表情等等来确定每一句对话的情绪状态。在医疗诊断、意见挖掘以及构建移情系统等领域对话情感识别任务得到了广泛应用，已经逐渐受到研究人员的更多关注。在多模态对话情感识别任务中，存在动态情感依赖。其表示对话过程中情感状态之间的相互依赖关系的变化，反映了情感在对话中的传播和交互。建模这种依赖关系可以帮助模型更好地理解情感状态之间的相互作用，增强对情感动态的理解。

2、有一种很常见的多元对话场景，其中多个参与者在交流中表达和交换情感。但是，在这类对话场景中，模型的性能往往不佳，难以提供准确的情感分析结果。这主要是因为多元对话情境中涉及的情感依赖关系变化较为复杂。例如，不同说话者之间的情感影响以及每个说话者内部的情感延续会相互...

【技术保护点】

1.一种基于关系子图交互的多模态对话动态情感识别方法，其特征在于，包括：获取多模态对话数据，将多模态对话数据输入训练好的DEDNet模型，得到情感识别结果；所述DEDNet模型包括：模态特征提取器、视听模态编码器、关系子图交互模块以及情感分类器；其中，所述DEDNet为动态情感依赖网络；

2.根据权利要求1所述的一种基于关系子图交互的多模态对话动态情感识别方法，其特征在于，话语序列与说话者序列之间存在映射关系R＝[ui；sj]，其中，[ui；sj]表示第i句话语是由第j个说话者说出的，ui为第i个话语，sj为第j个说话者。

3.根据权利要求1所述的一种基于关系子图...

【技术特征摘要】

1.一种基于关系子图交互的多模态对话动态情感识别方法，其特征在于，包括：获取多模态对话数据，将多模态对话数据输入训练好的dednet模型，得到情感识别结果；所述dednet模型包括：模态特征提取器、视听模态编码器、关系子图交互模块以及情感分类器；其中，所述dednet为动态情感依赖网络；

2.根据权利要求1所述的一种基于关系子图交互的多模态对话动态情感识别方法，其特征在于，话语序列与说话者序列之间存在映射关系r＝[ui；sj]，其中，[ui；sj]表示第i句话语是由第j个说话者说出的，ui为第i个话语，sj为第j个说话者。

3.根据权利要求1所述的一种基于关系子图交互的多模态对话动态情感识别方法，其特征在于，所述模态特征提取器包括：roberta large模型、opensmile模型、densenet模型以及线性层；模态特征提取器对多模态对话进行处理包括：采用roberta large模型提取多模态对话的初始文本模态特征，利用opensmile模型提取多模态对话的初始听觉模态特征，利用densenet模型提取多模态对话的初始视觉模态特征，将初始文本模态特征、初始听觉模态特征以及初始视觉模态特征输入线性层进行维度统一，得到文本模态特征、听觉模态特征以及视觉模态特征。

4.根据权利要求1所述的一种基于关系子图交互的多模态对话动态情感识别方法，其特征在于，所述视听模态编码器包括：视觉模态编码器和听觉模态编...

【专利技术属性】
技术研发人员：王烨，张伟，刘柯，于洪，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人