当前位置: 首页 > 专利查询>之江实验室专利>正文

一种跨模态上下文编码的对话情感识别方法及系统技术方案

技术编号:33406885 阅读:13 留言:0更新日期:2022-05-11 23:31
本发明专利技术公开一种跨模态上下文编码的对话情感识别方法及系统,该方法包括:步骤S1,将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码,得到各语句对应的视觉模态、语音模态及文本模态表征向量序列;步骤S2,将多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,得到对话中各语句的单模态上下文编码表征;步骤S3,将对话中各语句的单模态上下文编码表征进行两两组合编码,得到对话中各语句跨模态融合的上下文编码;步骤S4,将跨模态融合的上下文编码表征进行自适应的信息汇总,并对语句的情感类别进行判断。本发明专利技术能够有效提升对话情感的识别精度。度。度。

【技术实现步骤摘要】
一种跨模态上下文编码的对话情感识别方法及系统


[0001]本专利技术属于人工智能领域,涉及一种跨模态上下文编码的对话情感识别方法及系统。

技术介绍

[0002]对话机器人作为人工智能领域的重要研究方向,赋予机器人拟人化的情感计算能力近来引起了学术界和产业界的广泛关注。通常说话人的情感表达是通过多种外在载体融合表现的,如视觉、语音及语言文字等,因此基于多模态信息的对话情感识别成为领域内的研究热点之一,其难点在于:1)不同模态信息存在缺失、相悖等情形;2)异构多模态信息的有效融合;3)跨模态信息融合与多轮对话交互上下文建模有机融合。
[0003]现有主流方法大多采用不同模态特征向量简单拼接的方式进行跨模态信息的融合,其存在两方面问题:1)无法应对多模态信息融合推理时存在的模态缺失、模态相悖等问题;2)多模态融合与多轮对话交互上下文建模是两个独立的过程,难以在对话交互场景下实现多模态信息的深度融合与理解。
[0004]因此,如何有效解决多轮对话场景中不同模态信息融合的上下文编码问题,对用户情感状态进行建模,进而提高说话人情感识别的精确度,是一项亟待解决的问题。

技术实现思路

[0005]为了解决现有技术中存在的上述技术问题,本专利技术提出了一种跨模态上下文编码的对话情感识别方法及系统,能够有效处理多轮对话中不同模态信息的融合问题,通过对对话语句进行模态内及跨模态的上下文编码,有效提升对话情感的识别精度,其具体技术方案如下:一种跨模态上下文编码的对话情感识别方法,包括以下步骤:步骤S1,将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码,得到各语句对应的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列;步骤S2,将多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,得到对话中各语句的单模态上下文编码表征;步骤S3,将对话中各语句的单模态上下文编码表征进行两两组合编码,得到对话中各语句跨模态融合的上下文编码;步骤S4,将跨模态融合的上下文编码表征进行自适应的信息汇总,并对语句的情感类别进行判断。
[0006]进一步的,所述步骤S1具体包括以下步骤:步骤S11,将原始多轮对话的视频切分成n个语句片段,并标
注其对应的说话人ID序列,提取每个语句片段对应的视频图像帧序列、语音波形信号及语音进行文本转写后的文本语句,i=1,2,

n,n为整数;步骤S12,对视频图像帧序列中的视频图像帧进行人脸检测,提取说话人人脸图片表征向量,得到视觉模态表征向量序列;步骤S13,提取语音波形信号中语音信号帧的fbank滤波器组语音特征,通过LSTM循环神经网络得到语音模态表征向量序列;步骤S14,利用预训练模型BERT提取文本语句的文本语义特征,得到文本模态表征向量序列。
[0007]进一步的,步骤S12具体为:对于语句片段对应的视频图像帧序列,设其包含张图片,即表达式:使用开源人脸检测工具对中的每帧图像进行人脸区域标定,并截取对应的人脸区域图像,得到只包含人脸的图像帧序列,表达式为:针对人脸图片帧序列,统一规整其中每张图片的尺寸,并输入到开源预训练模型EfficientNet

B1中,取该模型最后一个隐层输出作为输入图片的表征向量;将中所有人脸图片表征的最大值池化向量作为语句片段的视觉模态表征向量,得到视觉模态表征向量序列。
[0008]进一步的,步骤S13具体为:对语句片段对应的语音波形信号,抽取其fbank滤波器组语音特征,得到语音特征向量序列,表达式为:将语音特征向量序列输入到单层的LSTM循环神经网络中,设定隐层维度,取编码后的LSTM隐层状态的最大值池化向量作为语句片段的语音模态表征向量,得到语音模态表征向量序列,表达式为:。
[0009]进一步的,步骤S14具体为:
对语句片段对应的文本语句,将其输入到中文预训练语言模型BERT中,取最后一层编码表征向量作为语句片段的文本模态表征向量,得到文本模态表征向量序列,表达式为:。
[0010]进一步的,所述步骤S2具体包括以下步骤:步骤S21,根据步骤S11中得到的说话人ID序列,通过定义一个说话人embedding嵌入层,将说话人ID序列映射为说话人embedding嵌入向量序列,表达式为:步骤S22,将步骤S21中得到的说话人embedding嵌入向量序列与步骤S12、步骤S13、步骤S14中得到的各个单模态表征向量序列、、进行拼接,分别得到融入说话人身份信息的视觉模态表征、音频模态表征及文本模态表征,表达式为:人身份信息的视觉模态表征、音频模态表征及文本模态表征,表达式为:人身份信息的视觉模态表征、音频模态表征及文本模态表征,表达式为:表示融入说话人身份信息的视觉模态表征,表示融入说话人身份信息的音频模态表征,表示融入说话人身份信息的文本模态表征,表示融入说话人身份信息的视觉、音频或文本模态表征序列;步骤S23,将步骤S22中得到的多轮对话语句的单模态表征向量序列、、分别输入到对应的单层LSTM循环神经网络中进行编码,设定隐层维度,得到各对话语句对应的单模态上下文表征向量,从而得到各对话语句对应的单模态上下文表征序列,表达式为:。
[0011]进一步的,所述步骤S3具体包括以下步骤:步骤S31,将步骤S23中得到的多轮对话单模态上下文表征向量序列、、进行跨模态两两组合,并输入到单层的Transformer编码网络中,得到编码输出、,表达式为:式为:式为:步骤S32,将步骤S31中得到的、进行拼接,作为对话语句的跨模态融合的上
下文编码表征,表达式为:下文编码表征,表达式为:。
[0012]进一步的,所述步骤S4具体包括以下步骤:步骤S41,将跨模态融合的上下文编码表征、、作为向量序列输入到单层Multi

Head Attention多头注意力网络中,该网络的编码输出经过池化层后,输入到单层的全连接网络,得到语句片段的m维特征向量,其中m表示情感类别数;步骤S42,将特征向量作为softmax算子的自变量,计算softmax的最终值,作为语句属于每一类情感的概率值,最后取类别概率值最大的作为最终情感类别,其中Softmax的计算公式如下:其中为常量,j,k=1,2,

m。
[0013]一种跨模态上下文编码的对话情感识别系统,包括:多轮对话预处理模块、模态内上下文编码模块、跨模态上下文编码模块、情感识别模块,所述多轮对话预处理模块,用于对原始多轮对话视频进行语句切分,并抽取各语句对应的视觉、语音及文本单模态表征,得到视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列;所述模态内上下文编码模块,用于对多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,即将不同模态表征与说话人embedding嵌入向量拼接,然后利用LSTM循环神经网络进行上下文编码,得到对话中各语句的单模态上下文编码表征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨模态上下文编码的对话情感识别方法,其特征在于,包括以下步骤:步骤S1,将多轮对话中每条语句对应的视频模态、音频模态及文本模态信息分别进行编码,得到各语句对应的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列;步骤S2,将多轮对话的视觉模态表征向量序列、语音模态表征向量序列及文本模态表征向量序列分别进行模态内的上下文编码,得到对话中各语句的单模态上下文编码表征;步骤S3,将对话中各语句的单模态上下文编码表征进行两两组合编码,得到对话中各语句跨模态融合的上下文编码;步骤S4,将跨模态融合的上下文编码表征进行自适应的信息汇总,并对语句的情感类别进行判断。2.如权利要求1所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,所述步骤S1具体包括以下步骤:步骤S11,将原始多轮对话的视频切分成n个语句片段,并标注其对应的说话人ID序列,提取每个语句片段对应的视频图像帧序列、语音波形信号及语音进行文本转写后的文本语句,i=1,2,

n,n为整数;步骤S12,对视频图像帧序列中的视频图像帧进行人脸检测,提取说话人人脸图片表征向量,得到视觉模态表征向量序列;步骤S13,提取语音波形信号中语音信号帧的fbank滤波器组语音特征,通过LSTM循环神经网络得到语音模态表征向量序列;步骤S14,利用预训练模型BERT提取文本语句的文本语义特征,得到文本模态表征向量序列。3.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,步骤S12具体为:对于语句片段对应的视频图像帧序列,设其包含张图片,即表达式:使用开源人脸检测工具对中的每帧图像进行人脸区域标定,并截取对应的人脸区域图像,得到只包含人脸的图像帧序列,表达式为:针对人脸图片帧序列,统一规整其中每张图片的尺寸,并输入到开源预训练模型EfficientNet

B1中,取该模型最后一个隐层输出作为输入图片的表征向量;将中所有人脸图片表征的最大值池化向量作为语句片段的视觉模态表
征向量,得到视觉模态表征向量序列。4.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,步骤S13具体为:对语句片段对应的语音波形信号,抽取其fbank滤波器组语音特征,得到语音特征向量序列,表达式为:将语音特征向量序列输入到单层的LSTM循环神经网络中,设定隐层维度,取编码后的LSTM隐层状态的最大值池化向量作为语句片段的语音模态表征向量,得到语音模态表征向量序列,表达式为:。5.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,步骤S14具体为:对语句片段对应的文本语句,将其输入到中文预训练语言模型BERT中,取最后一层编码表征向量作为语句片段的文本模态表征向量,得到文本模态表征向量序列,表达式为:。6.如权利要求2所述的一种跨模态上下文编码的对话情感识别方法,其特征在于,所述步骤S2具体包括以下步骤:步骤S21,根据步骤S11中得到的说话人ID序列,通过定义一个说话人嵌入层,将说话人ID序列映射为说话人嵌入向量序列,表达式为:步骤S22,将步骤S21中得到的说话人嵌入向量序列与步骤S12、步骤S13、步骤S14中得到的各个单模态表征向量序列、、进行拼接,分别得到融入说话人身份信息的视觉模态表征、音频模态表征及文本模态表征,表...

【专利技术属性】
技术研发人员:李太豪阮玉平张晓宁黄剑韬郑书凯
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1