一种基于能量帧时频融合的语音情感识别方法技术

技术编号：39050174 阅读：17 留言：0更新日期：2023-10-12 19:42

情感具有主观性与模糊性，而且语音在情感定义上缺乏官方标准。不同听者对同一段语音的情感可能有不同的观点。此外，不同人对同一情感的表达节奏和反应程度是不同的，而且同一个人在不同时刻对同一场景下的情感反应也有可能不同。为了解决该问题，本发明专利技术公开的一种基于能量帧时频融合的语音情感识别方法主要由两部分构成：第一部分通过计算语音帧的能量，选出能量大的语音帧转为频谱图作为输入；第二部分语音在时序上和频域上均有情感特征，采取CNN+RNN的网络结构分别对频域和时域进行特征提取，从而能够保证一定的准确率。本发明专利技术公开的方法成功体现出了个体间语音节奏的差异，具体是在能量上的分布差异，从而能够更准确地识别出语音情感。别出语音情感。别出语音情感。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于能量帧时频融合的语音情感识别方法

[0001]本专利技术涉及一种能量帧时频融合的语音情感识别方法，属于信息

技术介绍

[0002]伴随着智能语音技术飞速发展，远程智能银行中心逐步优化服务方式，但随着客户需求多样化及个性化的趋势下，如何为客户提供更好的服务体验和更加人性化的情感关怀，成为远程智能银行中心服务管理的重点和需要着重思考的新需求。电话服务仅凭一条电话线来贯穿整个服务，声音不仅是信息传递媒介，更是传递情感纽带，用来判断客户所思、所想。可见语音的情感识别对提升客户体验有积极作用。
[0003]情感是人对外部事件或对话活动的态度，情感在人际交往中占有重要的地位。在人机交互过程中，如果能够准确地识别当前用户的情感变化和状态，让AI产品根据用户的情感状态和情感变化做出适当的回应，可以让其体验感受脱颖而出，提高用户的使用舒适度。例如，在销售过程中，通过分析客户对产品的情感态度可以作为满意度的反馈，有助于平台制定更好的销售策略；在人机对话中，了解人类的情绪状态，可以帮助智能机器人做出适当的回应，及时表达安慰和理解，提高用户体验。良好地情感识别方法对于社交机器人、风控借贷、质量评估等方面都有着重要意义，具有很高的研究价值。
[0004]语音情感识别的目标是从语音中识别出人的情感状态以及情感变化。其主要包含三个步骤：1、语音信号处理，音频是一种高时序性的信号。提取音频特征前通常需要对音频进行分帧，加窗。由于语音的本质也是各种波的叠加，对语音帧进行短时傅里叶变换(STFT)。然后得到了维度为T<

【技术保护点】

【技术特征摘要】
1.一种基于能量帧时频融合的语音情感识别方法，其特征在于，包括以下步骤：步骤1、确定K能量帧的频谱，包括以下步骤：步骤101、设置帧长和帧移参数，将每条语音划分为nf帧短语音帧；步骤102、计算每帧短语音帧中每个采样点的短时能量，其中，每帧短语音帧的帧长为M，设每帧短语音帧的第n个采样点加窗函数时的短时能量表示为E
n
，则有：式中：w()表示窗函数；h()为线性滤波器的单位冲激响应，h()＝w()2；x(n)表示短语音帧的第n个采样点信号，n＝0,1,
…
,M
‑
1；步骤103、计算每帧短语音帧的语音帧能量，第i帧短语音帧的短时能量用E
i
表示，则有：步骤104、从nf帧短语音帧中选取短时能量E
i
最高的前K帧，并且这K帧的前后相邻2帧也提取出来，则获得包含3
×
K帧短语音帧的音频文件，该音频文件内，所有短语音帧按时间顺序排列好；步骤105、对音频文件中的短语音帧进行频域谱线转化，获得频域谱线normalization_half_y；步骤106、通过python中plt.fill()函数填充方式把频域谱线normalization_half_y中X轴与曲线围成的区间上色；步骤2、时频融合，进一步包括以下步骤：步骤201、采用CNN网络来提取上一步获得的音频文件中每一帧频谱的在频域上的能量分布特征，在CNN网络分别对3
×
K张频谱进行最后一次池化...

【专利技术属性】
技术研发人员：章昭辉，王鹏伟，张家豪，严琦，
申请(专利权)人：东华大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人