基于ICNN与Bi-LSTM的语音情感识别方法技术

技术编号:26602261 阅读:39 留言:0更新日期:2020-12-04 21:25
本发明专利技术涉及一种基于ICNN与Bi‑LSTM的语音情感识别方法,通过利用预设的参数对所述特征图进行分割并进行卷积,得到高频特征图和低频特征图;利用交互卷积层对所述高频特征图和所述低频特征图进行交互卷积,并利用激活层对交互卷积层输出的第一高频特征图、第二高频特征图、第一低频特征图和第二低频特征图进行融合,得到高频输出和低频输出,实现高低频特征图之间的信息交互;利用第二卷积层将所述高频输出和所述低频输出进行卷积,并恢复成与输入特征图大小一致的第一语音特征,通过融合第一语音特征和双向长短时记忆模型提取的第二语音特征并作为情感分类器的输入,以获取准确率高的语音识别结果。

【技术实现步骤摘要】
基于ICNN与Bi-LSTM的语音情感识别方法
本专利技术涉及基于语音情感识别
,尤其是涉及一种基于ICNN与Bi-LSTM的语音情感识别方法。
技术介绍
语音是人们日常生活中最重要、最自然也最直接的交流方式,包含着人们丰富的情感表达。随着人机交互技术的不断发展,基于语音的智能交互场景逐渐成为新一代人机交互的重点研究对象。语音情感识别技术的算法也从传统的机器学习对离散情感的分类发展到利用深度学习建模实现情感的识别分类。然而,由于语音情感特征的复杂性和多样性,语音情感识别的准确率较低。
技术实现思路
本申请实施例提供了一种基于ICNN与Bi-LSTM的语音情感识别方法,可以提高语音情感识别的效率和准确性。所述技术方案如下:第一方面,本申请实施例提供了一种基于ICNN与Bi-LSTM的语音情感识别方法,包括以下步骤:获取语音信号的对数梅尔谱图;获取所述对数梅尔谱图的特征图;将所述特征图输入交互卷积神经网络模型中进行特征提取,得到第一语音特征;利用双向长短时记忆模型对所述对数梅本文档来自技高网...

【技术保护点】
1.一种基于ICNN与Bi-LSTM的语音情感识别方法,其特征在于,包括以下步骤:/n获取语音信号的对数梅尔谱图;/n获取所述对数梅尔谱图的特征图;/n将所述特征图输入交互卷积神经网络模型中进行特征提取,得到第一语音特征;/n利用双向长短时记忆模型对所述对数梅尔谱图进行学习,获取第二语音特征;/n将所述第一语音特征和所述第二语音特征输入全连接层进行融合,得到融合特征;/n将所述融合特征输入情感分类器中,获取语音识别结果;/n其中,所述交互卷积神经网络模型包括:/n第一卷积层,用于利用预设的参数对所述特征图进行分割并进行卷积,得到高频特征图和低频特征图;/n交互卷积层,用于对所述高频特征图和所述...

【技术特征摘要】
1.一种基于ICNN与Bi-LSTM的语音情感识别方法,其特征在于,包括以下步骤:
获取语音信号的对数梅尔谱图;
获取所述对数梅尔谱图的特征图;
将所述特征图输入交互卷积神经网络模型中进行特征提取,得到第一语音特征;
利用双向长短时记忆模型对所述对数梅尔谱图进行学习,获取第二语音特征;
将所述第一语音特征和所述第二语音特征输入全连接层进行融合,得到融合特征;
将所述融合特征输入情感分类器中,获取语音识别结果;
其中,所述交互卷积神经网络模型包括:
第一卷积层,用于利用预设的参数对所述特征图进行分割并进行卷积,得到高频特征图和低频特征图;
交互卷积层,用于对所述高频特征图和所述低频特征图进行交互卷积,获取第一高频特征图、第二高频特征图、第一低频特征图和第二低频特征图;
激活层,用于对所述第一高频特征图和所述第二高频特征图进行融合,获得高频输出;对所述第一低频特征图和所述第二低频特征图进行融合,获得低频输出;
第二卷积层,用于将所述高频输出和所述低频输出进行卷积,并恢复成与输入特征图大小一致的第一语音特征。


2.根据权利要求1所述的基于ICNN与Bi-LSTM的语音情感识别方法,其特征在于,所述获取语音信号的对数梅尔谱图,包括:
获取语音信号;
将所述语音信号进行分帧、加窗并进行傅里叶变换,获取若干帧信号;
将所述若干帧信号进行堆叠,获取声谱图;
将所述声谱图输入梅尔尺度滤波器组,得到梅尔谱图;
对所述梅尔谱图取对数,得到语音信号的对数梅尔谱图。


3.根据权利要求1所述的基于ICNN与Bi-LSTM的语音情感识别方法,其特征在于,所述第一高频特征图为高频特征映射到高频的高频输出,所述第二高频特征图为低频特征映射到高频的高频输出,所述第一低频特征图为高频特征映射到低频的低频输出,所述第二低频特征图为低频特征映射到低频的低频输出;
对所述高频特征图和所述低频特征图进行交互卷积的步骤包括:
对所述高频特征图进行卷积输出通道数的设置,卷积后得到高频特征映射到高频的高频输出和高频特征映射到低频的低频输出;
对所述低频特征图进行卷积输出通道数的设置,卷积后得到低频特征映射到低频的低频输出和低频特征映射到高频的高频输出。


4.根据权利要求3所述的基于ICNN与Bi-LSTM的语音情感识别方法,其特征在于,
在对所述高频特征图进行高频映射到低频的卷积操作之前,还包括:
按照预设的空间分辨率,利用平均池化法对高频特征图中进行降采样;
在对所述低频特征图进行低频映射到高频的卷积操作之前,还包括...

【专利技术属性】
技术研发人员:唐小煜程慧慧彭汪月刘思睿
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1