【技术实现步骤摘要】
基于注意力机制的特征融合用于语音情感识别的方法
本专利技术是基于Attention机制的时间卷积网络(TCN)和长短期记忆网络(LSTM)所提出的一种语音情感识别方法。从数据库中获取原始语音数据,通过特征提取、预处理、LSTM解码、TCN解码,Attention机制的非线性特征融合,最后利用全连接网络输出。其中时间卷积网络利用膨胀卷积扩大感受野,跳跃连接可以保留更多的历史信息,因果卷积使未来消息只和过去相关。LSTM可以从低级的手工特征中获取长期的依赖关系。多个Attention机制的使用可以使模型不仅仅可以关注自身所提取的情感相关特征,同时可以建立模型之间的相互依赖关系,进而达到更好的情感识别效果。技术背景近年来,随着人机交互系统的发展,如何让机器可以通过人们的外部特征从而让机器理解人的意图以达到更好的人机交互效果成为巨大挑战。现实中研究者们通过音频、语音转录本、面部表情、肢体动作等特征来判别一个人的情绪。但在实际运用中往往最容易获取的数据是音频数据,因此基于语音的情感识别,在现实的人机交互系统中得到广泛的利用。 >专利技术内本文档来自技高网...
【技术保护点】
1.基于注意力机制的特征融合用于语音情感识别的方法,其特征在于:实现包括以下步骤:/n步骤一:情感特征提取/n提取MFCC特征和韵律特征P;/n步骤二:数据预处理/n①、统计提取的MFCC特征中每个句子的时间步{L
【技术特征摘要】
1.基于注意力机制的特征融合用于语音情感识别的方法,其特征在于:实现包括以下步骤:
步骤一:情感特征提取
提取MFCC特征和韵律特征P;
步骤二:数据预处理
①、统计提取的MFCC特征中每个句子的时间步{Ln|L1,L2,…,Ln,n∈N+},其中Ln表示每个句子经过特征提取后的时间步,n表示句子数量;
②、计算时间步的平均长度和时间步的标准差;
平均长度
标准差
③、统一每个句子的时间步
时间步Tn=Lave+Lsta
④、填充,裁减每个句子
每个句子都和时间步Tn比较,如果大于Tn,则裁减大于Tn部分;当小于Tn使用零去填充,使之等于Tn,最后的得到的数据为{XT|X1,X2,…,XT,T∈N},其中XT表示一个句子,T表示每个句子的时间步,其中T=750;
步骤三:建立基于注意力机制的长短期记忆网络解码器
①、长短期记忆网络解码
HT=LSTM(XT),T∈{0,1,…,750}
其中HT为长短期记忆网络的隐藏状态;
②、注意力加权
f(HT)=tanh(wTHT+b)<...
【专利技术属性】
技术研发人员:周后盘,周伟东,夏鹏飞,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。