【技术实现步骤摘要】
一种基于多头注意力机制融合的卷积递归神经网络模型
[0001]本专利技术属于语音信号处理
,具体涉及到一种基于多头注意力机制融合的卷积递归神经网络模型。
技术介绍
[0002]作为人类沟通交流最便捷的手段之一,语音在人机交互领域备受关注,然而,语音中除了内容信息外,还包含了情感信息。为使人机交互系统更加智能,开展针对语音情感识别的研究具备重大的研究意义和实用价值。
[0003]近些年,为构建高性能的语音情感识别系统,学者们从不同方向进行了大量的研究,例如情感模型构建、语音情感数据库录制、语音情感特征提取、特征选择及处理,语音情感分类识别等等。随着机器学习相关技术的发展,深度学习技术被广泛应用于语音情感识别领域,且取得了优异的成绩。鉴于单个网络特征提取能力有限,许多学者采用混合神经网络模型从语音中提取相关情感信息,然而现有模型多采用全连接层或简单拼接的方法实现不同网络特征的融合,但不同网络的特征空间存在较大的差异,简单的融合无法获取最优特征集,因此,针对该领域的研究仍需进一步探索。
技术实现思路
...
【技术保护点】
【技术特征摘要】
1.一种基于多头注意力机制融合的卷积递归神经网络模型,其特征在于,包括以下步骤:(1)对于每一条语音数据,采用Mel谱滤波器对语音进行处理,获得帧级数据Frames,将每条语音的所有帧级数据拼接在一起,组成2维Mel谱图像Mel,计算Mel谱图像的一阶、二阶导数,记为ΔMel,ΔΔMel,利用Mel,ΔMel,ΔΔMel构建成3维图片;(2)搭建特征提取网络,首先该网络由一个全卷积网络和一个双向长短时记忆(Bi
‑
directional Long Short
‑
Term Memory,BiLSTM)网络组成,具体实现步骤如下:首先,采用全卷积网络提取语音谱图情感特征,全卷积网络是在Alexnet网络基础上搭建的,全卷积网络的输出由3个分支组成,如公式(1)所示:output=(b1+b2+b3)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)在Alexnet网络第一、第二、第三个池化层后,添加一个分支,每个分支由1*1的卷积层和全局平均池化层组成,全卷积网络采用步骤(1)中构建的3维图片作为全卷积网络的输入;其次,采用BiLSTM提取语音的帧级情感特征,步骤(1)中的帧级数据Frames作为BiLSTM网络的输入;将两个网络提取到的情感特征经批归一化后,两个网络归一化特征F1,F2作为后面步骤的输入;(3)特征融合:为了提高识别性能,构建了一种基于多头注意力的多特征融合算法,具体操作如下:以多头注意力机制中的某个头算法为例,首先将两个网络输出的特征F1和F2的维数变为[B,1,N]然后将F1和F2拼接得到特征F,F的维数为[B,2,N],其中B表示批归一化数量的大小,2代表两个不同的特征空间,N代表特征维数的大小,采用自注意力机制算法计算注意力权重,如公式(2)、(3)所示:α
F
=softmax(tanh(F
×
W
F
)
×
...
【专利技术属性】
技术研发人员:陶华伟,方元博,傅洪亮,姜芃旭,韩伟良,刘曼,庄志豪,
申请(专利权)人:河南工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。