语音情感识别方法和装置、服务器、计算机可读存储介质制造方法及图纸

技术编号：24126505 阅读：39 留言：0更新日期：2020-05-13 04:47

本申请涉及一种语音情感识别方法和装置、服务器、计算机可读存储介质，包括：从原始音频帧序列中获取有效音频片段。对有效音频片段提取音频特征及文本特征，将有效音频片段的音频特征及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到原始音频帧序列的情感分类。不仅从原始音频帧序列中的有效音频片段中提取出文本特征，还提取出音频特征。然后，将所提取出的文本特征和音频特征同时一起输入至预设语音情感识别模型中进行处理，最终得到原始音频帧序列的情感分类。显然，对原始音频帧序列中的有效音频片段同时从文本特征和音频特征两个维度进行识别出情感分类，大大提高了所得到的情感分类的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音情感识别方法和装置、服务器、计算机可读存储介质
本申请涉及计算机
，特别是涉及一种语音情感识别方法和装置、服务器、计算机可读存储介质。
技术介绍
随着语音识别技术的发展，识别准确率不断提高，语音识别技术也被应用到越来越多的场景。通过语音不仅可以传递语义信息，还可以传递情感信息。因此，语音情感识别也是语音识别的一个重要组成部分，对语音的情感进行识别，有利于更全面地捕捉到语音的全部信息。但是，传统的语音情感识别技术对情感的识别准确率较低，因此，亟待解决传统的语速情感识别准确率较低的问题。
技术实现思路
本申请实施例提供一种语音情感识别方法、装置、服务器、计算机可读存储介质，可以提高语音情感识别的准确性。一种语音情感识别方法，包括：从原始音频帧序列中获取有效音频片段；对所述有效音频片段提取音频特征及文本特征；将所述有效音频片段的音频特征及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到所述原始音频帧序列的情感分类。在其中一个实施例中，所述从原始音频帧序列中获取有效音频片段，包括：对原始音频帧序列进行语音端点检测，将所述原始音频帧序列分割为有效音频片段和无效音频片段；从所述原始音频帧序列分割后的有效音频片段和无效音频片段中，获取有效音频片段。在其中一个实施例中，所述对所述有效音频片段提取音频特征及文本特征，包括：将所述有效音频片段按照预设规则划分为多个音频单元；对所述有效音频片段中的每个音频单元提取音频特...

【技术保护点】
1.一种语音情感识别方法，其特征在于，包括：/n从原始音频帧序列中获取有效音频片段；/n对所述有效音频片段提取音频特征及文本特征；/n将所述有效音频片段的音频特征及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到所述原始音频帧序列的情感分类。/n

【技术特征摘要】
1.一种语音情感识别方法，其特征在于，包括：
从原始音频帧序列中获取有效音频片段；
对所述有效音频片段提取音频特征及文本特征；
将所述有效音频片段的音频特征及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到所述原始音频帧序列的情感分类。

2.根据权利要求1所述的方法，其特征在于，所述从原始音频帧序列中获取有效音频片段，包括：
对原始音频帧序列进行语音端点检测，将所述原始音频帧序列分割为有效音频片段和无效音频片段；
从所述原始音频帧序列分割后的有效音频片段和无效音频片段中，获取有效音频片段。

3.根据权利要求1所述的方法，其特征在于，所述对所述有效音频片段提取音频特征及文本特征，包括：
将所述有效音频片段按照预设规则划分为多个音频单元；
对所述有效音频片段中的每个音频单元提取音频特征；
对所述有效音频片段中的每个音频单元进行文本标注，得到所述有效音频片段中的每个音频单元的文本序列；
对所述文本序列进行分词处理，得到所述有效音频片段中的每个音频单元的文本特征。

4.根据权利要求3所述的方法，其特征在于，所述音频特征包括梅尔频率倒谱系数；
所述对所述有效音频片段中的每个音频单元提取音频特征，包括：
对所述有效音频片段中的每个音频单元经过快速傅里叶变换及梅尔滤波器组的处理，提取出梅尔频率倒谱系数；
所述将所述有效音频片段的音频特征及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到所述原始音频帧序列的情感分类，包括：
将所述有效音频片段的梅尔频率倒谱系数及文本特征，输入至预设语音情感识别模型中进行语音情感识别，得到所述原始音频帧序列的情感分类。

5.根据权利要求1所述的方法，其特征在于，所述预设语音情感识别模型的生成过程包括：
从训练集中的原始音频帧序列中获取有效音频片段；
对所述有效音频片段提取音频特征及文本特征；
对所述有效音频片段进行情感标注，得到所述有效音频片段的情感标签；
将所述训练集中每一组所述有效音频片段的音频特征及文本特征、所述有效音频片段的情感标签，输入至卷积神经网络中进行训练，对所述卷积神经网络的参数进行调整，得到预设语音情感识别模型。

6.根据权利要求5所述的方法，其特征在于，所述卷积神经网络包括双...

【专利技术属性】
技术研发人员：刘峰，涂臻，刘广志，刘云峰，
申请(专利权)人：深圳追一科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人