【技术实现步骤摘要】
与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
本专利技术涉及智能语音
,特别是一种与文本无关的语音情感识别方法及装置以及一种用于识别情感的算法模型的生成方法。
技术介绍
近年来,随着智能语音技术的发展,基于情绪的语音识别也日渐成为研究的新方向新热点。目前,市面上大部分的情感识别都是文本相关的,例如华为、科大讯飞、以及百度的情感识别都是基于文本的,而文本无关的语音情感识别方案尚在研究阶段,还未提出行之有效、且能保证较高识别率的方案。
技术实现思路
为了克服现有方案的上述缺陷,专利技术人在算法选用和模型训练方面做了大量尝试和研究,最终提出了能够高效识别用户情绪的与文本无关的语音情感识别解决方案。根据本专利技术的一个方面,提供了一种用于语音情感识别的算法模型的生成方法,其包括录制情感识别语音数据进行预处理,确定训练数据集;利用所述训练数据集对选用的神经网络模型进行训练,确定用于语音情感识别的算法模型;其中,录制情感识别语音数据进行预处理,确定 ...
【技术保护点】
1.用于语音情感识别的算法模型的生成方法,其特征在于,包括/n录制情感识别语音数据进行预处理,确定训练数据集;/n利用所述训练数据集对选用的神经网络模型进行训练,确定用于语音情感识别的算法模型;/n其中,录制情感识别语音数据进行预处理,确定训练数据集实现为包括:/n对录制的情感识别语音数据提取特征值;/n对提取的特征值设置情感标签,形成训练数据集。/n
【技术特征摘要】
1.用于语音情感识别的算法模型的生成方法,其特征在于,包括
录制情感识别语音数据进行预处理,确定训练数据集;
利用所述训练数据集对选用的神经网络模型进行训练,确定用于语音情感识别的算法模型;
其中,录制情感识别语音数据进行预处理,确定训练数据集实现为包括:
对录制的情感识别语音数据提取特征值;
对提取的特征值设置情感标签,形成训练数据集。
2.根据权利要求1所述的方法,其特征在于,所述对录制的情感识别语音数据提取特征值包括:
分别提取语音数据的fbank特征和pitch特征;
对提取的fbank特征和pitch特征进行特征融合处理;
对融合后的特征提取一阶二阶差分。
3.根据权利要求1或2所述的方法,其特征在于,所述选用的神经网络模型为结构为7*(conv+relu()),loss为softmax()左右扩展5帧的tdnn模型。
4.根据权利要求1或2所述的方法,其特征在于,所述选用的神经网络模型为结构为7*(conv+relu6+batchnorm),loss为softmax()的tdnn模型,其中,在神经网络模型进行训练之后,还对训练所得的神经网络模型进行定点化处理以生成用于进行语音情感识别的算法模型。
5.根据权利要求4所述的方法,其特征在于,所述情感识别语音数据包括生气、开心、悲伤和正常四种情感的语音数据。
6.与文本无关的语音情感识别方法,其特征在于,包括
获取实时音频数据,通过训练好的用于语音情感识...
【专利技术属性】
技术研发人员:张艳,黄厚军,钱彦旻,
申请(专利权)人:苏州思必驰信息科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。