当前位置: 首页 > 专利查询>东华大学专利>正文

一种基于能量帧时频融合的语音情感识别方法技术

技术编号:39050174 阅读:17 留言:0更新日期:2023-10-12 19:42
情感具有主观性与模糊性,而且语音在情感定义上缺乏官方标准。不同听者对同一段语音的情感可能有不同的观点。此外,不同人对同一情感的表达节奏和反应程度是不同的,而且同一个人在不同时刻对同一场景下的情感反应也有可能不同。为了解决该问题,本发明专利技术公开的一种基于能量帧时频融合的语音情感识别方法主要由两部分构成:第一部分通过计算语音帧的能量,选出能量大的语音帧转为频谱图作为输入;第二部分语音在时序上和频域上均有情感特征,采取CNN+RNN的网络结构分别对频域和时域进行特征提取,从而能够保证一定的准确率。本发明专利技术公开的方法成功体现出了个体间语音节奏的差异,具体是在能量上的分布差异,从而能够更准确地识别出语音情感。别出语音情感。别出语音情感。

【技术实现步骤摘要】
一种基于能量帧时频融合的语音情感识别方法


[0001]本专利技术涉及一种能量帧时频融合的语音情感识别方法,属于信息


技术介绍

[0002]伴随着智能语音技术飞速发展,远程智能银行中心逐步优化服务方式,但随着客户需求多样化及个性化的趋势下,如何为客户提供更好的服务体验和更加人性化的情感关怀,成为远程智能银行中心服务管理的重点和需要着重思考的新需求。电话服务仅凭一条电话线来贯穿整个服务,声音不仅是信息传递媒介,更是传递情感纽带,用来判断客户所思、所想。可见语音的情感识别对提升客户体验有积极作用。
[0003]情感是人对外部事件或对话活动的态度,情感在人际交往中占有重要的地位。在人机交互过程中,如果能够准确地识别当前用户的情感变化和状态,让AI产品根据用户的情感状态和情感变化做出适当的回应,可以让其体验感受脱颖而出,提高用户的使用舒适度。例如,在销售过程中,通过分析客户对产品的情感态度可以作为满意度的反馈,有助于平台制定更好的销售策略;在人机对话中,了解人类的情绪状态,可以帮助智能机器人做出适当的回应,及时表达安慰和理解,提高用户体验。良好地情感识别方法对于社交机器人、风控借贷、质量评估等方面都有着重要意义,具有很高的研究价值。
[0004]语音情感识别的目标是从语音中识别出人的情感状态以及情感变化。其主要包含三个步骤:1、语音信号处理,音频是一种高时序性的信号。提取音频特征前通常需要对音频进行分帧,加窗。由于语音的本质也是各种波的叠加,对语音帧进行短时傅里叶变换(STFT)。然后得到了维度为T<br/>×
D的频谱特征,其中T表示该语音被分成的帧数,大小与时间长度相关,D是特征维度。2、特征提取,频谱特征包含了说话节奏、语气、语调等丰富的信息。语音相关的情感特征提取仍是一个有着极大上升空间的研究方向。深度学习的出现能够更加深层次地提取与情感相关的情感特征,采用数据驱动的方法,并通过情感标签作为监督信号训练模型,从而省去了人工或统计特征表示的过程。由于音频输入的序列化特性,深度特征提取通常基于CNN、RNN、LSTM、CapsNets或它们的各种组合以及加上Attention机制。3.分类器构建。常见的传统机器学习方法来构建分类器,如支持向量机(SVM)、高斯混合模型(GMM)、隐马尔可夫模型(HMM)等经典方法。它们可以基于人工语音特征或深度语音特征来学习分类。此外,由于深度学习的发展,基于神经网络的分类器可以与深度特征提取器端到端进行训练,得到情感分类器。
[0005]综上,语音情感识别在商品推荐,舆论监控,人机对话等方面都有着重要的意义,但是并没有广泛应用起来,原因主要如下(1)语音存在较强的主观性和个体差异,个体间在情感表达节奏上有快又慢,在情感表达的程度上有高有低。而且语音在情感定义上缺乏官方标准,不同听者对同一段语音的情感可能有不同的观点。(2)语音的特征分布具有稀疏性,并非语音中所有的时刻都包含情感信息,一些噪声或者无情感信息的时刻会影响到识别准确性。因此如何准确定位到语音中的情感特征信息仍是一个值得探索的问题。

技术实现思路

[0006]本专利技术要解决的技术问题是:现有语音情感识别方法中无法体现出个体间的语音节奏韵律差异。
[0007]为了解决上述技术问题,本专利技术的技术方案是提供了一种基于能量帧时频融合的语音情感识别方法,其特征在于,包括以下步骤:
[0008]步骤1、确定K能量帧的频谱,包括以下步骤:
[0009]步骤101、设置帧长和帧移参数,将每条语音划分为nf帧短语音帧;
[0010]步骤102、计算每帧短语音帧中每个采样点的短时能量,其中,每帧短语音帧的帧长为M,设每帧短语音帧的第n个采样点加窗函数时的短时能量表示为E
n
,则有:
[0011][0012]式中:w()表示窗函数;h()为线性滤波器的单位冲激响应,h()=w()2;x(n)表示短语音帧的第n个采样点信号,n=0,1,

,M

1;
[0013]步骤103、计算每帧短语音帧的语音帧能量,第i帧短语音帧的短时能量用E
i
表示,则有:
[0014]步骤104、从nf帧短语音帧中选取短时能量E
i
最高的前K帧,并且这K帧的前后相邻2帧也提取出来,则获得包含3
×
K帧短语音帧的音频文件,该音频文件内,所有短语音帧按时间顺序排列好;
[0015]步骤105、对音频文件中的短语音帧进行频域谱线转化,获得频域谱线normalization_half_y;
[0016]步骤106、通过python中plt.fill()函数填充方式把频域谱线normalization_half_y中X轴与曲线围成的区间上色;
[0017]步骤2、时频融合,进一步包括以下步骤:
[0018]步骤201、采用CNN网络来提取上一步获得的音频文件中每一帧频谱的在频域上的能量分布特征,在CNN网络分别对3
×
K张频谱进行最后一次池化后,每张特征频谱都是多通道的特征,采用单个卷积核进行变化,让每张特征频谱变为单通道,对通道数为3
×
K的m
×
n特征频谱进行重塑,变成通道数为1、长为m
×
n、宽为3
×
K的特征图;
[0019]步骤202、将CNN网络输出的特征图放入多层RNN模型学习帧与帧之间的关联,获得时序特征并进行分类。
[0020]优选地,步骤101中,所述nf的值采用下式确定:
[0021]nf=ceiling((signal_length

wlen+inc)/inc)
[0022]式中:signal_length为该音频的总采样点数,wlen为每一小帧的采样点数,inc为重叠帧移采样点数,ceiling为上取整函数。
[0023]优选地,步骤101中,若最后一帧短语音帧不足wlen个采样点,则进行补零处理。
[0024]优选地,步骤102中,窗函数w(n)为汉明窗,则有
[0025]优选地,步骤105中,所述频域谱线normalization_half_y采用下式计算:
[0026][0027]式中:fft(y)表示对音频文件中的短语音帧y进行快速傅里叶变化;abs[]表示取绝对值;N表示经过快速傅里叶变化后得到了N个复数;表示区间取半。
[0028]本专利技术公开的方法主要由两部分构成:第一部分通过计算语音帧的能量,选出能量大的语音帧转为频谱图作为输入;第二部分语音在时序上和频域上均有情感特征,采取CNN+RNN的网络结构分别对频域和时域进行特征提取,从而能够保证一定的准确率。本专利技术公开的方法成功体现出了个体间语音节奏的差异,具体是在能量上的分布差异,从而能够更准确地识别出语音情感。
附图说明
[0029]图1是能量帧时频融合的语音情感识别模型框架结构图;...

【技术保护点】

【技术特征摘要】
1.一种基于能量帧时频融合的语音情感识别方法,其特征在于,包括以下步骤:步骤1、确定K能量帧的频谱,包括以下步骤:步骤101、设置帧长和帧移参数,将每条语音划分为nf帧短语音帧;步骤102、计算每帧短语音帧中每个采样点的短时能量,其中,每帧短语音帧的帧长为M,设每帧短语音帧的第n个采样点加窗函数时的短时能量表示为E
n
,则有:式中:w()表示窗函数;h()为线性滤波器的单位冲激响应,h()=w()2;x(n)表示短语音帧的第n个采样点信号,n=0,1,

,M

1;步骤103、计算每帧短语音帧的语音帧能量,第i帧短语音帧的短时能量用E
i
表示,则有:步骤104、从nf帧短语音帧中选取短时能量E
i
最高的前K帧,并且这K帧的前后相邻2帧也提取出来,则获得包含3
×
K帧短语音帧的音频文件,该音频文件内,所有短语音帧按时间顺序排列好;步骤105、对音频文件中的短语音帧进行频域谱线转化,获得频域谱线normalization_half_y;步骤106、通过python中plt.fill()函数填充方式把频域谱线normalization_half_y中X轴与曲线围成的区间上色;步骤2、时频融合,进一步包括以下步骤:步骤201、采用CNN网络来提取上一步获得的音频文件中每一帧频谱的在频域上的能量分布特征,在CNN网络分别对3
×
K张频谱进行最后一次池化...

【专利技术属性】
技术研发人员:章昭辉王鹏伟张家豪严琦
申请(专利权)人:东华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1