一种用于多模态情绪检测的特征级融合方法技术

技术编号:22817642 阅读:41 留言:0更新日期:2019-12-14 13:20
一种用于多模态情绪检测的特征级融合方法,从公开的数据集中获得其文本形态的转录本;在矢量序列X上应用单层CNN;使用开源工具openSMILE从数据集中的音频文件提取音频信息,将高维矢量映射到密集的神经层中,获得音频特征向量;将多维自注意作为特征融合方法用于计算单峰特征的注意力得分概率;使用注意力得分概率执行加权加法来创建融合向量;将生成的融合向量s

A feature level fusion method for multimodal emotion detection

【技术实现步骤摘要】
一种用于多模态情绪检测的特征级融合方法
本专利技术提出了一种不同与传统融合方法的新的特征级融合方法。本方法将文本和音频模态的特征分别进行提取,引入了自注意机制,为两种模态特征分配适当的权重,获得融合特征,从而提高情绪识别的准确度。具体涉及的方法为:基于自注意机制的特征级融合方法。
技术介绍
情感检测是一种具有广阔应用前景的热门研究领域,机器可以通过准确识别人类情绪并对这些情绪做出反应来增强人机交互,在医学,教育,营销,安全和监视领域情绪识别也具有重要的应用。传统的情感检测方法只利用单个视觉或音频信号等形态,存在一定的局限性。相比较单模态的情绪检测,两种或多模态拥有更多的情感信息,能够提高情感识别的准确率。因此,最近的研究重点转向利用多种形式的信息的多模式处理上。
技术实现思路
为了克服单模态情绪识别的局限性,充分利用多模态下得更多的情感信息,提高情绪识别的性能,本专利技术提出了一种基于自注意机制的特征级融合方法。可以在公开的多模态获取数据,方法简单,稳定性好。本专利技术解决其技术问题所采用的技术方案是:一种用于多模态情绪检测的特征级融合方法,包括以下步骤:步骤1:从公开的数据集中获得其文本形态的转录本,转录本S是由n个单词组成的句子;步骤2:根据已有的快速文本嵌入字典,将最初维度为V的单热矢量单词Wi嵌入到低维实值向量中,获得矢量序列X;步骤3:在矢量序列X上应用单层CNN,输入矢量序列X,生成整体文本特征;步骤4:使用开源工具openSMILE从数据集中的音频文件提取音频信息,获得有关说话者情绪状态的特征向量称为ain;步骤5:将高维矢量ain映射到密集的神经层中,获得音频特征向量au;步骤6:引入多维自注意模块,用于计算单峰文本特征tu和音频特征au的注意力得分ak,再通过softmax函数将ak转换为概率分布pk,i;步骤7:根据计算出的文本特征和音频特征注意力概率Pk,i执行加权加法来创建融合向量su,多维自注意的融合向量su的第k个元素,即su[k];步骤8:将生成的融合向量su映射到另一个密集的神经层上;步骤9:使用softmax函数计算融合向量su的分类概率从而进行情感类别的分类;步骤10:使用分类交叉熵计算基于反向传播的训练的批量损失Loss,不断调整权重与偏差,使损失loss最小,获得最佳情绪预测结果。进一步,所述步骤2中,通过公式:将单词嵌入,句子S变换为矢量序列X=[x1,x2,...xn],其中Wem为快速文本嵌入字典,wi为矢量单词,表示维度为dem的单热矢量,dem是文本嵌入字典的维度。再进一步,所述步骤3的过程为:步骤3-1:卷积层包含三个滤波器F1,F2,F3表示三个维度分别为dem×h1,dem×h2,dem×h3的滤波器,h1,h2,h3是滤波器的卷积核大小;步骤3-2:每个过滤器Fi在输入序列X上滑动,并在每个矢量中提取特征,构成了大小为的特征映射向量mi,j,mi,j的计算公式为:其中j=1,...,(X|-hi+1),Fi是滤波器,hi是滤波器卷积核大小,X是矢量序列,bi是偏差,α(·)是非线性激活函数;;步骤3-3:每个滤波器Fi创建M个特征映射,总共获得3M个特征映射,然后,在滤波器Fi的每个M特征映射向量的长度上应用最大池操作,获得输出向量Oi;步骤3-4:将每个Oi连接起来,得到再用一个全连接层,将O连接起来,获得整体文本特征所述步骤5,将情绪状态的特征向量矢量ain映射到密集的神经层中,获得音频特征向量au,au的计算公式为:au=α(Waain+ba),其和da是au的维数,α(·)表示非线性激活函数。所述步骤6的过程为:步骤6-1:设置d=dt=da,建模输入元素数列E=[e1=tu,e2=ain],其中dt是文本特征向量tu的维度,da是音频特征向量ain的维度,用e1表示tu,e2表示ain;步骤6-2:将输入元素ei转变为向量f(ei);步骤6-3:引入多维自注意模块,利用向量f(ei)计算单峰文本特征tu和音频特征au的注意力得分ak;步骤6-4:将注意力得分ak转换为概率分布pk,i;所述步骤7,使用注意力得分概率执行加权加法来创建融合向量su,多维自注意的融合向量su的第k个元素,即su[k]的计算公式如下:su[k]=Pk,1⊙tu+Pk,2⊙au,其中,其中pk,1,pk,2分别为文本特征tu和音频特征au的注意力概率分布,由pk,i求得,⊙表示逐元素乘法,Pk,i=p(zk=i|[tu,au])。所述步骤9中,使用softmax函数计算融合向量su的分类概率从而进行情感类别的分类,计算公式为:其中Wf是权重,bf是偏差;所述步骤10中,使用分类交叉熵计算基于反向传播的训练的批量损失Loss,不断调整权重与偏差,使损失loss最小,获得最佳情绪预测结果,Loss计算公式为:其中N是一个批次中的话语总量,C是情感类别的数量,yi,j是第j类训练批次的第i个话语的单热矢量,是同一话语的类j的预测概率。本专利技术的有益效果是:1.将文本特征和音频特征两种模态的特征融合,进行情绪识别,不同于现在的仅适用用单模态特征进行情绪识别。2.创新性的提出使用文本特征与音频特征进行特征融合,识别情感,不同于现在大多数的视频与音频结合的方法。3.从公开的IEMOCAP多模态数据集中获取文本和音频数据,利用开源平台openSMILE进行音频特征的提取,方法简单且效果稳定。4.本专利技术不需要复杂的算法程序,操作较为简单,运行速度快。附图说明图1是多模态情绪检测分系统框架。图2是多维自注意模块框图。具体实施方式下面结合附图对本专利技术的进行详细阐述,以使本专利技术的优点和特征能更易于被本领域技术人员理解,从而对本专利技术的保护范围做出更为清楚明确的界定。参照图1和图2,一种用于多模态情绪检测的特征级融合方法,包括以下步骤:步骤1:从公开的IEMOCAP多模态数据集获得其文本形态的转录本,转录本S是由n个单词组成的句子,即S=[w1,w2,...,wn];步骤2:根据已有的快速文本嵌入字典,将最初维度为V的单热矢量单词Wi嵌入到低维实值向量中,获得矢量序列X;通过公式:将单词嵌入,句子S变换为矢量序列X=[x1,x2,...xn];步骤3:在矢量序列X上应用单层CNN,输入矢量序列X,生成整体文本特征;过程如下:步骤3-1:卷积层包含三个三个滤波器h1,h2,h3是滤波器的卷积核大小;步骤3-2:每个过滤器Fi在输入序列X上滑动,并在每个矢量中提取特征,构成了大小为的特征映射向量mi,j,mi,j的计算公式为:mi,j=α(Fi·X[j:j+hi-1]+bi),其中j=1,...,(|X|-hi+1),bi∈R是偏差,α(·)是非线性激活函数;<本文档来自技高网...

【技术保护点】
1.一种用于多模态情绪检测的特征级融合方法,其特征在于,该方法包括如下步骤:/n步骤1:从公开的数据集中获得其文本形态的转录本,转录本S是由n个单词组成的句子;/n步骤2:根据已有的快速文本嵌入字典,将最初维度为V的单热矢量单词W

【技术特征摘要】
1.一种用于多模态情绪检测的特征级融合方法,其特征在于,该方法包括如下步骤:
步骤1:从公开的数据集中获得其文本形态的转录本,转录本S是由n个单词组成的句子;
步骤2:根据已有的快速文本嵌入字典,将最初维度为V的单热矢量单词Wi嵌入到低维实值向量中,获得矢量序列X;
步骤3:在矢量序列X上应用单层CNN,卷积层包含三个滤波器,输入矢量序列X,并在每个矢量中提取特征,应用最大池操作,获得输出向量Oi,连接Oi,生成整体文本特征tu;
步骤4:使用开源工具openSMILE从数据集中的音频文件提取音频信息,获得有关说话者情绪状态的特征向量称为ain;
步骤5:将高维矢量ain映射到密集的神经层中,获得音频特征向量au;
步骤6:引入多维自注意模块,用于计算单峰文本特征tu和音频特征au的注意力得分ak,再通过softmax函数将ak转换为概率分布pk,i;
步骤7:根据计算出的文本特征和音频特征注意力概率pi,k,执行加权加法来创建融合向量su,多维自注意的融合向量su的第k个元素,即su[k];
步骤8:将生成的融合向量su映射到另一个密集的神经层上;
步骤9:使用softmax函数计算融合向量su的分类概率从而进行情感类别的分类;
步骤10:使用分类交叉熵计算基于反向传播的训练的批量损失Loss,不断调整权重与偏差,使损失loss最小,获得最佳情绪预测结果。


2.如权利要求1所述的一种用于多模态情绪检测的特征级融合方法,其特征在于,所述步骤2,将单词嵌入,句子S变换为矢量序列X=[x1,x2,...xn],xi的计算公式为:xi=Wemwi,其中Wem为快速文本嵌入字典,wi为矢量单词,表示维度为dem的单热矢量,dem是文本嵌入字典的维度。


3.如权利要求1或2所述的一种用于多模态情绪检测的特征级融合方法,其特征在于,所述步骤3的过程为:
步骤3-1:卷积层包含三个滤波器其中,F1,F2,F3表示三个维度分别为dem×h1,dem×h2,dem×h3的滤波器,h1,h2,h3是滤波器的卷积核大小;
步骤3-2:每个过滤器Fi在输入序列X上滑动,并在每个矢量中提取特征,构成了大小为的特征映射向量mi,j,mi,j的计算公式为:其中j=1,...,(|X|-hi+1),Fi是滤波器,hi是滤波器卷积核大小,X是矢量序列,bi是偏差,α(·)是非线性激活函数;
步骤3-3:每个滤波器Fi创建M个特征映射,总共获得3M个特征映射,然后,在滤波器F...

【专利技术属性】
技术研发人员:吴哲夫陈智伟
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1