一种语音情感识别方法及系统技术方案

技术编号:21143780 阅读:28 留言:0更新日期:2019-05-18 05:56
本发明专利技术公开一种语音情感识别方法及系统。所述识别方法包括:获取语音信号;预处理所述语音信号,获得预处理语音信号;计算所述预处理语音信号对应的语谱图;计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度;根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征;将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。采用基于语谱图和卷积神经网络的语音情感识别方法提升了语音情感识别率。

【技术实现步骤摘要】
一种语音情感识别方法及系统
本专利技术涉及语音识别领域,特别是涉及一种语音情感识别方法及系统。
技术介绍
语音情感识别作为人工智能、心理学、计算科学等多学科交叉的新兴领域,进入21世纪后,随着人工智能领域的快速发展,语音情感识别的需求越来越大,所以分析、研究语音中包含的情感特征,判断说话人喜怒哀乐的情绪有非常重要的影响。传统的语音情感识别领域的研究偏向于分析语音的声学统计特征,其中,情感语音数据库中的语音条目较少,语义也较简单情感语音数据库。现有技术中,用于情感识别的声学特征可分为韵律学特征、基于谱的特征,音质特征。进入21世纪,随着人工智能领域的快速发展,语音情感识别的需求变大,在情感特征的提取方面,最早有启发式算法,包括顺序向后选择、顺序向前选择、优先选择,线性特征参数的提取的算法也被应用,包括主成分分析法、线性判别分析法线性判别分析法,由于现有技术中的分析方法的分析结果的准确率低,提出了一种利用深度信念网络来自动提取特征的方法,并且现有技术中采用过线性判别分类的方法,以及k最近邻法和支持向量机的方法,采用最大似然贝叶斯分类法、核回归和k最近邻法三种分类器,取得了60%-65%的识别率。现有技术中采用的分类方法以及分析方法的进行语音情感的识别率较低。
技术实现思路
本专利技术的目的是提供一种能够提高语音情感识别的识别率的语音情感识别方法及系统。为实现上述目的,本专利技术提供了如下方案:一种语音情感识别方法,所述识别方法包括:获取语音信号;预处理所述语音信号,获得预处理语音信号;计算所述预处理语音信号对应的语谱图;计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度;根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征;将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。可选的,所述预处理所述语音信号,获得预处理语音信号具体包括:将所述语音信号经过数字化处理,获得脉冲语音信号;将所述脉冲语音信号采样处理,获得离散时间和连续幅值的脉冲语音信号;将所述离散时间和连续幅值的脉冲语音信号量化处理,获得离散时间和离散幅值的脉冲语音信号;将所述离散时间和离散幅值的脉冲语音信号进行预加重处理,获得预加重语音信号;将所述预加重语音信号进行分帧加窗处理,获得预处理语音信号。可选的,所述计算所述预处理语音信号对应的语谱图具体包括:获取所述预处理语音信号的采样频率Fs、采样数据序列Sg和语段长度;根据所述语段长度和窗函数的窗长Nnew将所述预处理语音信号分为N段,获得N段语音信号;根据所述语段长度和所述N段语音信号计算帧移Nsfgtft;对第i帧语音信号Si加窗处理,获得加窗语音信号S′i,S′i=Si×hanning(Nnew),其中i的取值为1,2,......,N;将所述加窗语音信号S′i进行傅里叶变换,获得傅里叶变换语音信号Zi;根据所述傅里叶变换语音信号Zi的相位θi计算所述第i帧语音信号Si的能量密度函数|Zi|2;将所述窗函数进行Nsfgtft个帧移,获得第i+1帧语音信号Si+1的能量密度函数|Zi+1|2;获得一个[Nnew/2]+1行、N列的矩阵R;将所述矩阵R映射为灰度图,获得所述计算所述预处理语音信号对应的语谱图。可选的,所述将所述声学特征采用卷积神经网络分类识别所述语音信号的情感具体包括:所述语谱图采用卷积神经网络的卷积层处理,三维的所述语谱图转换为N个二维特征;其中,bj为能够训练的偏差函数,kij为卷积核,xi表示输入的第i段语谱图;yi表示输出的第i段语谱图对应的二维特征;将所述输出的第i段语谱图对应的二维特征yi通过池化层处理,获得低分辨率声学特征y′i;所述卷积层与所述池化层之间设置有全连接层,所述全连接层中有激活函数,所述全连接层用于所述卷积层与所述池化层之间的数据传输。一种语音情感识别系统,所述识别系统包括:语音信号获取模块,用于获取语音信号;预处理模块,用于预处理所述语音信号,获得预处理语音信号;语谱图计算模块,用于计算所述预处理语音信号对应的语谱图;最佳语段长度确定模块,用于计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度;声学特征提取模块,用于根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征;卷积神经网络模块,用于将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。可选的,所述预处理模块具体包括:数字化处理单元,用于将所述语音信号经过数字化处理,获得脉冲语音信号;采样处理单元,用于将所述脉冲语音信号采样处理,获得离散时间和连续幅值的脉冲语音信号;量化处理单元,用于将所述离散时间和连续幅值的脉冲语音信号量化处理,获得离散时间和离散幅值的脉冲语音信号;预加重处理单元,用于将所述离散时间和离散幅值的脉冲语音信号进行预加重处理,获得预加重语音信号;分帧加窗单元,用于将所述预加重语音信号进行分帧加窗处理,获得预处理语音信号。可选的,所述语谱图计算模块具体包括:预处理语音信号信息获取单元,用于获取所述预处理语音信号的采样频率Fs、采样数据序列Sg和语段长度;预处理语音信号分段单元,用于根据所述语段长度和窗函数的窗长Nnew将所述预处理语音信号分为N段,获得N段语音信号;帧移计算单元,用于根据所述语段长度和所述N段语音信号计算帧移Nsfgtft;加窗处理单元,用于对第i帧语音信号Si加窗处理,获得加窗语音信号S′i,S′i=Si×hanning(Nnew),其中i的取值为1,2,......,N;傅里叶变换单元,用于将所述加窗语音信号S′i进行傅里叶变换,获得傅里叶变换语音信号Zi;语谱图获取单元,用于根据所述傅里叶变换语音信号Zi的相位θi计算所述第i帧语音信号Si的能量密度函数|Zi|2;将所述窗函数进行Nsfgtft个帧移,获得第i+1帧语音信号Si+1的能量密度函数|Zi+1|2;获得一个[Nnew/2]+1行、N列的矩阵R;将所述矩阵R映射为灰度图,获得所述计算所述预处理语音信号对应的语谱图。可选的,所述卷积神经网络模块具体包括:卷积层单元,用于所述语谱图采用卷积神经网络的卷积层处理,三维的所述语谱图转换为N个二维特征;池化层单元,用于将所述输出的第i段语谱图对应的二维特征yi通过池化层处理,获得低分辨率声学特征y′i;全连接层单元,用于所述卷积层与所述池化层之间设置有全连接层,所述全连接层中有激活函数,所述全连接层用于所述卷积层与所述池化层之间的数据传输。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术公开了一种语音情感识别方法及系统。所述识别方法为获取语音信号;预处理所述语音信号,获得预处理语音信号;计算所述预处理语音信号对应的语谱图;计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度;根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征;将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。采用基于语谱图和卷积神经网络的语音情感识别方法提升了语音情感识别率,基于最佳语段长度的语谱图的特征和卷积神经网络的识别方法也进一步提高了语音情感的识别率。附图说明为了更清楚地本文档来自技高网...

【技术保护点】
1.一种语音情感识别方法,其特征在于,所述识别方法包括:获取语音信号;预处理所述语音信号,获得预处理语音信号;计算所述预处理语音信号对应的语谱图;计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度;根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征;将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。

【技术特征摘要】
1.一种语音情感识别方法,其特征在于,所述识别方法包括:获取语音信号;预处理所述语音信号,获得预处理语音信号;计算所述预处理语音信号对应的语谱图;计算多个不同语段长度的所述预处理语音信号的情感识别率,将所述情感识别率最高对应的语段长度确定为最佳语段长度;根据所述最佳语段长度对应的语谱图提取所述语音信号的声学特征;将所述声学特征采用卷积神经网络分类识别所述语音信号的情感。2.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述预处理所述语音信号,获得预处理语音信号具体包括:将所述语音信号经过数字化处理,获得脉冲语音信号;将所述脉冲语音信号采样处理,获得离散时间和连续幅值的脉冲语音信号;将所述离散时间和连续幅值的脉冲语音信号量化处理,获得离散时间和离散幅值的脉冲语音信号;将所述离散时间和离散幅值的脉冲语音信号进行预加重处理,获得预加重语音信号;将所述预加重语音信号进行分帧加窗处理,获得预处理语音信号。3.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述计算所述预处理语音信号对应的语谱图具体包括:获取所述预处理语音信号的采样频率Fs、采样数据序列Sg和语段长度;根据所述语段长度和窗函数的窗长Nnew将所述预处理语音信号分为N段,获得N段语音信号;根据所述语段长度和所述N段语音信号计算帧移Nsfgtft;对第i帧语音信号Si加窗处理,获得加窗语音信号Si′,Si′=Si×hanning(Nnew),其中i的取值为1,2,......,N;将所述加窗语音信号Si′进行傅里叶变换,获得傅里叶变换语音信号Zi;根据所述傅里叶变换语音信号Zi的相位θi计算所述第i帧语音信号Si的能量密度函数|Zi|2;将所述窗函数进行Nsfgtft个帧移,获得第i+1帧语音信号Si+1的能量密度函数|Zi+1|2;获得一个[Nnew/2]+1行、N列的矩阵R;将所述矩阵R映射为灰度图,获得所述计算所述预处理语音信号对应的语谱图。4.根据权利要求1所述的一种语音情感识别方法,其特征在于,所述将所述声学特征采用卷积神经网络分类识别所述语音信号的情感具体包括:所述语谱图采用卷积神经网络的卷积层处理,三维的所述语谱图转换为N个二维特征;其中,bj为能够训练的偏差函数,kij为卷积核,xi表示输入的第i段语谱图;yi表示输出的第i段语谱图对应的二维特征;将所述输出的第i段语谱图对应的二维特征yi通过池化层处理,获得低分辨率声学特征yi′;所述卷积层与所述池化层之间设置有全连接层,所述全连接层中有激活函数,所述全连接层用于所述卷积层与所述池化层之间的数据传输。5.一种语音情感识别系统,其特征在于,所述识别系统包括:语音信号获取模块,用于获取语音信号;预处理模...

【专利技术属性】
技术研发人员:巩微范文庆金连婧伏文龙黄玮
申请(专利权)人:中国传媒大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1