语音情感识别方法和装置、服务器、计算机可读存储介质制造方法及图纸

技术编号:24126505 阅读:39 留言:0更新日期:2020-05-13 04:47
本申请涉及一种语音情感识别方法和装置、服务器、计算机可读存储介质,包括:从原始音频帧序列中获取有效音频片段。对有效音频片段提取音频特征及文本特征,将有效音频片段的音频特征及文本特征,输入至预设语音情感识别模型中进行语音情感识别,得到原始音频帧序列的情感分类。不仅从原始音频帧序列中的有效音频片段中提取出文本特征,还提取出音频特征。然后,将所提取出的文本特征和音频特征同时一起输入至预设语音情感识别模型中进行处理,最终得到原始音频帧序列的情感分类。显然,对原始音频帧序列中的有效音频片段同时从文本特征和音频特征两个维度进行识别出情感分类,大大提高了所得到的情感分类的准确性。

【技术实现步骤摘要】
语音情感识别方法和装置、服务器、计算机可读存储介质
本申请涉及计算机
,特别是涉及一种语音情感识别方法和装置、服务器、计算机可读存储介质。
技术介绍
随着语音识别技术的发展,识别准确率不断提高,语音识别技术也被应用到越来越多的场景。通过语音不仅可以传递语义信息,还可以传递情感信息。因此,语音情感识别也是语音识别的一个重要组成部分,对语音的情感进行识别,有利于更全面地捕捉到语音的全部信息。但是,传统的语音情感识别技术对情感的识别准确率较低,因此,亟待解决传统的语速情感识别准确率较低的问题。
技术实现思路
本申请实施例提供一种语音情感识别方法、装置、服务器、计算机可读存储介质,可以提高语音情感识别的准确性。一种语音情感识别方法,包括:从原始音频帧序列中获取有效音频片段;对所述有效音频片段提取音频特征及文本特征;将所述有效音频片段的音频特征及文本特征,输入至预设语音情感识别模型中进行语音情感识别,得到所述原始音频帧序列的情感分类。在其中一个实施例中,所述从原始音频帧序列中获取有效音频片段,包括:对原始音频帧序列进行语音端点检测,将所述原始音频帧序列分割为有效音频片段和无效音频片段;从所述原始音频帧序列分割后的有效音频片段和无效音频片段中,获取有效音频片段。在其中一个实施例中,所述对所述有效音频片段提取音频特征及文本特征,包括:将所述有效音频片段按照预设规则划分为多个音频单元;对所述有效音频片段中的每个音频单元提取音频特征;对所述有效音频片段中的每个音频单元进行文本标注,得到所述有效音频片段中的每个音频单元的文本序列;对所述文本序列进行分词处理,得到所述有效音频片段中的每个音频单元的文本特征。在其中一个实施例中,所述音频特征包括梅尔频率倒谱系数;所述对所述有效音频片段中的每个音频单元提取音频特征,包括:对所述有效音频片段中的每个音频单元经过快速傅里叶变换及梅尔滤波器组的处理,提取出梅尔频率倒谱系数;所述将所述有效音频片段的音频特征及文本特征,输入至预设语音情感识别模型中进行语音情感识别,得到所述原始音频帧序列的情感分类,包括:将所述有效音频片段的梅尔频率倒谱系数及文本特征,输入至预设语音情感识别模型中进行语音情感识别,得到所述原始音频帧序列的情感分类。在其中一个实施例中,所述预设语音情感识别模型的生成过程包括:从训练集中的原始音频帧序列中获取有效音频片段;对所述有效音频片段提取音频特征及文本特征;对所述有效音频片段进行情感标注,得到所述有效音频片段的情感标签;将所述训练集中每一组所述有效音频片段的音频特征及文本特征、所述有效音频片段的情感标签,输入至卷积神经网络中进行训练,对所述卷积神经网络的参数进行调整,得到预设语音情感识别模型。在其中一个实施例中,所述卷积神经网络包括双向长短期记忆网络层、子采样层、批量标准化BN层、最大池化层、全连接层及多分类器softmax层;所述将所述训练集中每一组所述有效音频片段的音频特征及文本特征、所述有效音频片段的情感标签,输入至卷积神经网络中进行训练,对所述卷积神经网络的参数进行调整,得到预设语音情感识别模型,包括:将所述训练集中每一组所述有效音频片段的音频特征及文本特征,输入至所述双向长短期记忆网络层进行卷积计算;将所述双向长短期记忆网络层的输出,输入至所述子采样层进行子采样;将所述子采样层的输出输入至所述BN层进行卷积计算;将所述BN层的输出输入至所述最大池化层进行池化处理;将所述最大池化层的输出输入至全连接层及softmax层进行处理,得到所述有效音频片段的情感分类及对应的概率;获取最大的概率所对应的情感分类作为所述有效音频片段的情感分类,将所述有效音频片段的情感分类与所述有效音频片段的情感标签进行比较,根据比较结果对所述卷积神经网络的参数进行调整,直到对所述训练集中每一组所述有效音频片段完成训练,输出预设语音情感识别模型。在其中一个实施例中,在所述将所述子采样层的输出输入至所述BN层进行卷积计算之后,包括:将所述BN层的输出重复输入至所述双向长短期记忆网络层进行卷积计算;将所述双向长短期记忆网络层的输出,输入至所述子采样层进行子采样;将所述子采样层的输出输入至所述BN层进行卷积计算,所述重复次数小于设定阈值。一种语音情感识别装置,包括:有效音频片段获取模块,用于从原始音频帧序列中获取有效音频片段;音频特征及文本特征提取模块,用于对所述有效音频片段提取音频特征及文本特征;语音情感识别模块,用于将所述有效音频片段的音频特征及文本特征,输入至预设语音情感识别模型中进行语音情感识别,得到所述原始音频帧序列的情感分类。一种服务器,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上方法的步骤。上述语音情感识别方法、装置、服务器、计算机可读存储介质,从原始音频帧序列中获取有效音频片段。对有效音频片段提取音频特征及文本特征,将有效音频片段的音频特征及文本特征,输入至预设语音情感识别模型中进行语音情感识别,得到原始音频帧序列的情感分类。不仅从原始音频帧序列中的有效音频片段中提取出文本特征,还提取出音频特征。然后,将所提取出的文本特征和音频特征同时一起输入至预设语音情感识别模型中进行处理,最终得到原始音频帧序列的情感分类。显然,对原始音频帧序列中的有效音频片段同时从文本特征和音频特征两个维度进行识别出情感分类,大大提高了所得到的情感分类的准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为一个实施例中的应用场景示意图;图2为一个实施例中语音情感识别方法的流程图;图3为图2中对有效音频片段提取音频特征及文本特征方法的流程图;图4为一个实施例中提取音频特征的流程图;图5为一个实施例中预设语音情感识别模型的生成过程的流程图;图6为一个实施例中卷积神经网络的结构框图;图7为一个实施例中语音情感识别装置的结构框图;图8为另一个实施例中语音情感识别装置的结构框图;图9为一个实施例中服务器的内部结构示意图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。可以理解,本申请所使用的术本文档来自技高网...

【技术保护点】
1.一种语音情感识别方法,其特征在于,包括:/n从原始音频帧序列中获取有效音频片段;/n对所述有效音频片段提取音频特征及文本特征;/n将所述有效音频片段的音频特征及文本特征,输入至预设语音情感识别模型中进行语音情感识别,得到所述原始音频帧序列的情感分类。/n

【技术特征摘要】
1.一种语音情感识别方法,其特征在于,包括:
从原始音频帧序列中获取有效音频片段;
对所述有效音频片段提取音频特征及文本特征;
将所述有效音频片段的音频特征及文本特征,输入至预设语音情感识别模型中进行语音情感识别,得到所述原始音频帧序列的情感分类。


2.根据权利要求1所述的方法,其特征在于,所述从原始音频帧序列中获取有效音频片段,包括:
对原始音频帧序列进行语音端点检测,将所述原始音频帧序列分割为有效音频片段和无效音频片段;
从所述原始音频帧序列分割后的有效音频片段和无效音频片段中,获取有效音频片段。


3.根据权利要求1所述的方法,其特征在于,所述对所述有效音频片段提取音频特征及文本特征,包括:
将所述有效音频片段按照预设规则划分为多个音频单元;
对所述有效音频片段中的每个音频单元提取音频特征;
对所述有效音频片段中的每个音频单元进行文本标注,得到所述有效音频片段中的每个音频单元的文本序列;
对所述文本序列进行分词处理,得到所述有效音频片段中的每个音频单元的文本特征。


4.根据权利要求3所述的方法,其特征在于,所述音频特征包括梅尔频率倒谱系数;
所述对所述有效音频片段中的每个音频单元提取音频特征,包括:
对所述有效音频片段中的每个音频单元经过快速傅里叶变换及梅尔滤波器组的处理,提取出梅尔频率倒谱系数;
所述将所述有效音频片段的音频特征及文本特征,输入至预设语音情感识别模型中进行语音情感识别,得到所述原始音频帧序列的情感分类,包括:
将所述有效音频片段的梅尔频率倒谱系数及文本特征,输入至预设语音情感识别模型中进行语音情感识别,得到所述原始音频帧序列的情感分类。


5.根据权利要求1所述的方法,其特征在于,所述预设语音情感识别模型的生成过程包括:
从训练集中的原始音频帧序列中获取有效音频片段;
对所述有效音频片段提取音频特征及文本特征;
对所述有效音频片段进行情感标注,得到所述有效音频片段的情感标签;
将所述训练集中每一组所述有效音频片段的音频特征及文本特征、所述有效音频片段的情感标签,输入至卷积神经网络中进行训练,对所述卷积神经网络的参数进行调整,得到预设语音情感识别模型。


6.根据权利要求5所述的方法,其特征在于,所述卷积神经网络包括双...

【专利技术属性】
技术研发人员:刘峰涂臻刘广志刘云峰
申请(专利权)人:深圳追一科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1