一种跨模态上下文编码的对话情感识别方法及系统技术方案

技术编号：33406885 阅读：13 留言：0更新日期：2022-05-11 23:31

本发明专利技术公开一种跨模态上下文编码的对话情感识别方法及系统，该方法包括：步骤S1，将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码，得到各语句对应的视觉模态、语音模态及文本模态表征向量序列；步骤S2，将多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码，得到对话中各语句的单模态上下文编码表征；步骤S3，将对话中各语句的单模态上下文编码表征进行两两组合编码，得到对话中各语句跨模态融合的上下文编码；步骤S4，将跨模态融合的上下文编码表征进行自适应的信息汇总，并对语句的情感类别进行判断。本发明专利技术能够有效提升对话情感的识别精度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
一种跨模态上下文编码的对话情感识别方法及系统

[0001]本专利技术属于人工智能领域，涉及一种跨模态上下文编码的对话情感识别方法及系统。

技术介绍

[0002]对话机器人作为人工智能领域的重要研究方向，赋予机器人拟人化的情感计算能力近来引起了学术界和产业界的广泛关注。通常说话人的情感表达是通过多种外在载体融合表现的，如视觉、语音及语言文字等，因此基于多模态信息的对话情感识别成为领域内的研究热点之一，其难点在于：1)不同模态信息存在缺失、相悖等情形；2）异构多模态信息的有效融合；3）跨模态信息融合与多轮对话交互上下文建模有机融合。
[0003]现有主流方法大多采用不同模态特征向量简单拼接的方式进行跨模态信息的融合，其存在两方面问题：1）无法应对多模态信息融合推理时存在的模态缺失、模态相悖等问题；2）多模态融合与多轮对话交互上下文建模是两个独立的过程，难以在对话交互场景下实现多模态信息的深度融合与理解。
[0004]因此，如何有效解决多轮对话场景中不同模态信息融合的上下文编码问题，对用户情感状态进行建模，进而提高说话人情感识别的精确度，是一项亟待解决的问题。

技术实现思路

[0005]为了解决现有技术中存在的上述技术问题，本专利技术提出了一种跨模态上下文编码的对话情感识别方法及系统，能够有效处理多轮对话中不同模态信息的融合问题，通过对对话语句进行模态内及跨模态的上下文编码，有效提升对话情感的识别精度，其具体技术方案如下：一种跨模态上下文编码的对话情感识别方法，包括以下步骤：步骤S1，将多轮...

【技术保护点】

【技术特征摘要】
1.一种跨模态上下文编码的对话情感识别方法，其特征在于，包括以下步骤：步骤S1，将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码，得到各语句对应的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列；步骤S2，将多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码，得到对话中各语句的单模态上下文编码表征；步骤S3，将对话中各语句的单模态上下文编码表征进行两两组合编码，得到对话中各语句跨模态融合的上下文编码；步骤S4，将跨模态融合的上下文编码表征进行自适应的信息汇总，并对语句的情感类别进行判断。2.如权利要求1所述的一种跨模态上下文编码的对话情感识别方法，其特征在于，所述步骤S1具体包括以下步骤：步骤S11，将原始多轮对话的视频切分成n个语句片段，并标注其对应的说话人ID序列，提取每个语句片段对应的视频图像帧序列、语音波形信号及语音进行文本转写后的文本语句，i=1，2，
…
n，n为整数；步骤S12，对视频图像帧序列中的视频图像帧进行人脸检测，提取说话人人脸图片表征向量，得到视觉模态表征向量序列；步骤S13，提取语音波形信号中语音信号帧的fbank滤波器组语音特征，通过LSTM循环神经网络得到语音模态表征向量序列；步骤S14，利用预训练模型BERT提取文本语句的文本语义特征，得到文本模态表征向量序列。3.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法，其特征在于，步骤S12具体为：对于语句片段对应的视频图像帧序列，设其包含张图片，即表达式：使用开源人脸检测工具对中的每帧图像进行人脸区域标定，并截取对应的人脸区域图像，得到只包含人脸的图像帧序列，表达式为：针对人脸图片帧序列，统一规整其中每张图片的尺寸，并输入到开源预训练模型EfficientNet
‑
B1中，取该模型最后一个隐层输出作为输入图片的表征向量；将中所有人脸图片表征的最大值池化向量作为语句片段的视觉模态表
征向量，得到视觉模态表征向量序列。4.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法，其特征在于，步骤S13具体为：对语句片段对应的语音波形信号,抽取其fbank滤波器组语音特征，得到语音特征向量序列，表达式为：将语音特征向量序列输入到单层的LSTM循环神经网络中，设定隐层维度，取编码后的LSTM隐层状态的最大值池化向量作为语句片段的语音模态表征向量，得到语音模态表征向量序列，表达式为：。5.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法，其特征在于，步骤S14具体为：对语句片段对应的文本语句，将其输入到中文预训练语言模型BERT中，取最后一层编码表征向量作为语句片段的文本模态表征向量，得到文本模态表征向量序列，表达式为：。6.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法，其特征在于，所述步骤S2具体包括以下步骤：步骤S21，根据步骤S11中得到的说话人ID序列，通过定义一个说话人嵌入层，将说话人ID序列映射为说话人嵌入向量序列，表达式为：步骤S22，将步骤S21中得到的说话人嵌入向量序列与步骤S12、步骤S13、步骤S14中得到的各个单模态表征向量序列、、进行拼接，分别得到融入说话人身份信息的视觉模态表征、音频模态表征及文本模态表征，表...

【专利技术属性】
技术研发人员：李太豪，阮玉平，张晓宁，黄剑韬，郑书凯，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人