一种用于多模态情绪检测的特征级融合方法技术

技术编号：22817642 阅读：41 留言：0更新日期：2019-12-14 13:20

一种用于多模态情绪检测的特征级融合方法，从公开的数据集中获得其文本形态的转录本；在矢量序列X上应用单层CNN；使用开源工具openSMILE从数据集中的音频文件提取音频信息，将高维矢量映射到密集的神经层中，获得音频特征向量；将多维自注意作为特征融合方法用于计算单峰特征的注意力得分概率；使用注意力得分概率执行加权加法来创建融合向量；将生成的融合向量s

A feature level fusion method for multimodal emotion detection

全部详细技术资料下载

【技术实现步骤摘要】
一种用于多模态情绪检测的特征级融合方法
本专利技术提出了一种不同与传统融合方法的新的特征级融合方法。本方法将文本和音频模态的特征分别进行提取，引入了自注意机制，为两种模态特征分配适当的权重，获得融合特征，从而提高情绪识别的准确度。具体涉及的方法为：基于自注意机制的特征级融合方法。
技术介绍
情感检测是一种具有广阔应用前景的热门研究领域，机器可以通过准确识别人类情绪并对这些情绪做出反应来增强人机交互，在医学，教育，营销，安全和监视领域情绪识别也具有重要的应用。传统的情感检测方法只利用单个视觉或音频信号等形态，存在一定的局限性。相比较单模态的情绪检测，两种或多模态拥有更多的情感信息，能够提高情感识别的准确率。因此，最近的研究重点转向利用多种形式的信息的多模式处理上。
技术实现思路
为了克服单模态情绪识别的局限性，充分利用多模态下得更多的情感信息，提高情绪识别的性能，本专利技术提出了一种基于自注意机制的特征级融合方法。可以在公开的多模态获取数据，方法简单，稳定性好。本专利技术解决其技术问题所采用的技术方案是：一种用于多模态情绪检测的特征级融合方法，包括以下步骤：步骤1：从公开的数据集中获得其文本形态的转录本，转录本S是由n个单词组成的句子；步骤2：根据已有的快速文本嵌入字典，将最初维度为V的单热矢量单词Wi嵌入到低维实值向量中，获得矢量序列X；步骤3：在矢量序列X上应用单层CNN,输入矢量序列X,生成整体文本特征；步骤4：使用开源工具openSMI...

【技术保护点】
1.一种用于多模态情绪检测的特征级融合方法，其特征在于，该方法包括如下步骤：/n步骤1：从公开的数据集中获得其文本形态的转录本，转录本S是由n个单词组成的句子；/n步骤2：根据已有的快速文本嵌入字典，将最初维度为V的单热矢量单词W

【技术特征摘要】
1.一种用于多模态情绪检测的特征级融合方法，其特征在于，该方法包括如下步骤：
步骤1：从公开的数据集中获得其文本形态的转录本，转录本S是由n个单词组成的句子；
步骤2：根据已有的快速文本嵌入字典，将最初维度为V的单热矢量单词Wi嵌入到低维实值向量中，获得矢量序列X；
步骤3：在矢量序列X上应用单层CNN,卷积层包含三个滤波器，输入矢量序列X,并在每个矢量中提取特征，应用最大池操作，获得输出向量Oi，连接Oi，生成整体文本特征tu；
步骤4：使用开源工具openSMILE从数据集中的音频文件提取音频信息，获得有关说话者情绪状态的特征向量称为ain；
步骤5：将高维矢量ain映射到密集的神经层中，获得音频特征向量au；
步骤6：引入多维自注意模块，用于计算单峰文本特征tu和音频特征au的注意力得分ak，再通过softmax函数将ak转换为概率分布pk,i；
步骤7：根据计算出的文本特征和音频特征注意力概率pi,k，执行加权加法来创建融合向量su，多维自注意的融合向量su的第k个元素，即su[k]；
步骤8：将生成的融合向量su映射到另一个密集的神经层上；
步骤9：使用softmax函数计算融合向量su的分类概率从而进行情感类别的分类；
步骤10：使用分类交叉熵计算基于反向传播的训练的批量损失Loss，不断调整权重与偏差，使损失loss最小，获得最佳情绪预测结果。

2.如权利要求1所述的一种用于多模态情绪检测的特征级融合方法，其特征在于，所述步骤2，将单词嵌入，句子S变换为矢量序列X＝[x1,x2,...xn]，xi的计算公式为：xi＝Wemwi，其中Wem为快速文本嵌入字典，wi为矢量单词，表示维度为dem的单热矢量，dem是文本嵌入字典的维度。

3.如权利要求1或2所述的一种用于多模态情绪检测的特征级融合方法，其特征在于，所述步骤3的过程为：
步骤3-1：卷积层包含三个滤波器其中，F1，F2，F3表示三个维度分别为dem×h1，dem×h2，dem×h3的滤波器，h1,h2,h3是滤波器的卷积核大小；
步骤3-2：每个过滤器Fi在输入序列X上滑动，并在每个矢量中提取特征，构成了大小为的特征映射向量mi,j，mi,j的计算公式为：其中j＝1,...,(|X|-hi+1)，Fi是滤波器，hi是滤波器卷积核大小，X是矢量序列，bi是偏差，α(·)是非线性激活函数；
步骤3-3：每个滤波器Fi创建M个特征映射，总共获得3M个特征映射，然后，在滤波器F...

【专利技术属性】
技术研发人员：吴哲夫，陈智伟，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人