语音情绪识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:21632277 阅读:26 留言:0更新日期:2019-07-17 12:12
本申请公开了一种语音情绪识别方法、装置、计算机设备和计算机可读存储介质,其中,方法包括:获取用户的语音数据;根据语音数据确定用户的用户属性信息;根据用户属性信息和语音数据,确定用户的情绪类别,由此,该方法不依赖语音识别技术,无需将语音转化为本文,只需通过语音数据确定用户的属性信息,并基于该属性信息实现用户的语音情绪识别,相对于传统方式仅通过通用模型实现用户的情绪识别而言,本申请基于用户属性实现用户的语音情绪识别,可以有效提升情绪识别效果,提高识别准确率。

Speech Emotion Recognition Method, Device, Computer Equipment and Storage Media

【技术实现步骤摘要】
语音情绪识别方法、装置、计算机设备和存储介质
本申请涉及数据处理
,尤其涉及一种语音情绪识别方法、装置、计算机设备和计算机可读存储介质。
技术介绍
语音交互是人工智能时代重要的交互模式,随着物联网的发展以及智能硬件的推广,人们开始使用语音进行交流,通过语音控制各种智能产品,根据用户的语音,进而识别出用户情绪,从而对用户作出不同的情感反馈,使交互系统更加人性化,提高交互质量。相关技术中,语音情绪识别的方式主要有以下三种方式,第一种方式是,利用语音识别技术将语音转化成文本,再通过文本情感分析技术来识别语音中的情绪;第二种方式是,抽取语音信号中的声学特征,然后通过统计函数(如均值,标准差等)将声学特征组合成固定维度的统计特征,再通过传统的机器学习模型进行训练,从而判断语音信号的情感;第三种方式是,对原始语音信号,或者将语音转化成语谱图特征,再通过深度神经网络模型进行训练,从而判断语音信号的情绪。但是,目前存在的技术问题是:上述第一种方式,一方面依赖于语音识别的准确率,在对话交互场景下,很多口语化的表达,经常会识别错误,尤其是相对嘈杂一点的环境,另一方面很多情绪的表达单纯通过文本是分析不出来的,例如“我想去购物啦”,语音表达上可以表现出“愤怒”、“厌烦”甚至“伤心”等情绪,但通过文本并不能看出来,情绪识别率低;第二种方式,依赖于对各种语音特征的抽取和选择,但目前相关技术并不能提取出较好的情感语音特征,导致语音的情绪识别准确率不高;第三种方式,深度神经网络模型需要大量语音标注数据,需要消耗巨大的标注成本,并且现实中的语音数据有偏且样本数量少,难以支持复杂模型的训练。
技术实现思路
本申请的目的旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的一个目的在于提出一种语音情绪识别方法,该方法可以有效提升情绪识别效果,提高识别准确率。本申请的第二个目的在于提出一种语音情绪识别装置。本申请的第三个目的在于提出一种计算机设备。本申请的第四个目的在于提出一种计算机可读存储介质。为达上述目的,本申请第一方面实施例提出了一种语音情绪识别方法,包括:获取用户的语音数据;根据所述语音数据确定所述用户的用户属性信息;根据所述用户属性信息和所述语音数据,确定所述用户的情绪类别。本申请实施例的语音情绪识别方法,首先,获取用户的语音数据;然后,根据所述语音数据确定所述用户的用户属性信息;最后,根据所述用户属性信息和所述语音数据,确定所述用户的情绪类别。由此,该方法不依赖语音识别技术,无需将语音转化为本文,只需通过语音数据确定用户的属性信息,并基于该属性信息实现用户的语音情绪识别,相对于传统方式仅通过通用模型实现用户的情绪识别而言,本申请基于用户属性实现用户的语音情绪识别,可以有效提升情绪识别效果,提高识别准确率。为达上述目的,本申请第二方面实施例提出了一种语音情绪识别装置,包括:语音获取模块,用于获取用户的语音数据;属性信息确定模块,用于根据所述语音数据确定所述用户的用户属性信息;情绪类别确定模块,用于根据所述用户属性信息和所述语音数据,确定所述用户的情绪类别。本申请实施例的语音情绪识别装置,首先,获取用户的语音数据;然后,根据所述语音数据确定所述用户的用户属性信息;最后,根据所述用户属性信息和所述语音数据,确定所述用户的情绪类别。由此,该装置不依赖语音识别技术,无需将语音转化为本文,只需通过语音数据确定用户的属性信息,并基于该属性信息实现用户的语音情绪识别,相对于传统方式仅通过通用模型实现用户的情绪识别而言,本申请基于用户属性实现用户的语音情绪识别,可以有效提升情绪识别效果,提高识别准确率。为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现本申请第一方面实施例所述的语音情绪识别方法。为达上述目的,本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请第一方面实施例所述的语音情绪识别方法。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明图1是根据本申请第一个实施例的语音情绪识别方法的流程图;图2是根据本申请第二个实施例的语音情绪识别方法的流程图;图3是根据本申请第三个实施例的语音情绪识别方法的流程图;图4是根据本申请第四个实施例的语音情绪识别方法的结构示意图;图5是根据本申请第一个实施例的语音情绪识别装置的结构示意图;图6是根据本申请第二个实施例的语音情绪识别装置的结构示意图;图7是根据本申请第三个实施例的语音情绪识别装置的结构示意图;图8是根据本申请第四个实施例的语音情绪识别装置的结构示意图;图9是根据本申请第五个实施例的语音情绪识别装置的结构示意图。图10是根据本申请一个实施例的计算机设备的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述本申请实施例的语音情绪识别方法、装置、计算机设备和计算机可读存储介质。本申请实施例语音情绪识别方法被配置于语音情绪识别装置中来举例说明,该语音情绪识别装置可以应用于任一计算机设备中,以使该计算机设备可以执行语音情绪识别功能。图1为根据本申请一个实施例的语音情绪识别方法的流程示意图。步骤101,获取用户的语音数据。具体地,语音数据通常指的就是通过语音来记录的数据以及通过语音来传输的数据。语音数据可以为预先录制好的语音数据,也可以为实时输入的语音数据。优选地,语音数据为实时输入的语音数据。在本申请实施例中,可采用语音情绪识别装置为用户提供语音输入接口,通过该接口获取用户输入的语音数据。例如,移动终端通过麦克风采集用户的语音,并将采集到的语音数据通过所述语音输入接口上传给语音情绪识别装置,以使得语音情绪识别装置获得用户输入的语音数据。步骤102,根据语音数据确定用户的用户属性信息。在本申请实施例中,在获取到用户的语音数据之后,可根据语音数据确定用户的用户属性信息。其中,需要说明的是,用户的属性信息可包括但不限于用户的性别和年龄段信息等。可选地,所述根据语音数据确定用户的用户属性信息的具体实现过程可包括如下步骤:提取语音数据中的频率相关特征和梅尔频率倒谱系数(MelFrequencyCepstrumCoefficient,简称MFCC)特征,并将频率相关特征和MFCC特征输入预先建立的声纹感知模型进行性别分类和年龄段预估,得到用户的性别和年龄段信息。其中,在本申请的一个实施例中,该频率相关特征可包括但不限于语音频率的平均值(对应英文简称meanfreq)、频率第一四分位(对应英文简称:Q25)、指频率第三四分位(对应英文简称:Q75)、频率偏度(对应英文简称:skew)等。可以理解,该声纹感知模型可用于对用户的语音数据进行处理以确定出该用户的性别和年龄段信息。需要说明的是,在本文档来自技高网
...

【技术保护点】
1.一种语音情绪识别方法,其特征在于,包括:获取用户的语音数据;根据所述语音数据确定所述用户的用户属性信息;根据所述用户属性信息和所述语音数据,确定所述用户的情绪类别。

【技术特征摘要】
1.一种语音情绪识别方法,其特征在于,包括:获取用户的语音数据;根据所述语音数据确定所述用户的用户属性信息;根据所述用户属性信息和所述语音数据,确定所述用户的情绪类别。2.根据权利要求1所述的方法,其特征在于,所述用户属性信息包括性别和年龄段信息。3.根据权利要求2所述的方法,其特征在于,所述根据所述语音数据确定所述用户的用户属性信息,包括:提取所述语音数据中的频率相关特征和梅尔频率倒谱系数特征;将所述频率相关特征和梅尔频率倒谱系数特征输入预先建立的声纹感知模型进行性别分类和年龄段预估,得到所述用户的性别和年龄段信息。4.根据权利要求3所述的方法,其特征在于,通过以下步骤预先建立所述声纹感知模型:获取样本语音数据;对所述样本语音数据进行性别和年龄段标注,得到所述样本语音数据的标注数据;提取所述样本语音数据的频率相关特征和梅尔频率倒谱系数特征;根据所述样本语音数据的频率相关特征、梅尔频率倒谱系数特征和所述标注数据,对第一分类模型进行训练,得到所述声纹感知模型。5.根据权利要求2至4中任一项所述的方法,其特征在于,所述根据所述用户属性信息和所述语音数据,确定所述用户的情绪类别,包括:根据所述用户的性别获取对应的语音情绪识别模型;提取所述语音数据的声学特征和语谱图特征;根据所述用户的年龄段信息、所述声学特征、语谱图特征和与所述用户的性别对应的语音情绪识别模型,确定所述用户的情绪类别。6.根据权利要求5所述的方法,其特征在于,所述语音情绪识别模型包括第一输入层、第二输入层和输出层,其中,所述第一输入层用于对所述用户的年龄段信息和所述声学特征进行特征提取以得到第一组合特征;所述第二输入层用于对所述语谱图特征进行特征提取以得到第二组合特征;所述输出层用于对所述第一组合特征和第二组合特征进行拼接以得到拼接特征,并基于第二分类模型对所述拼接特征进行情绪识别以输出各个情绪标签的概率分布。7.根据权利要求6所述的方法,其特征在于,所述根据所述用户的年龄段信息、所述声学特征、语谱图特征和与所述用户的性别对应的语音情绪识别模型,确定所述用户的情绪类别,包括:将所述用户的年龄段信息、所述声学特征和所述语谱图特征输入至所述语音情绪识别模型中进行情绪识别,得到各个情绪标签的概率;根据所述各个情绪标签的概率进行阈值判断;根据阈值判断结果,从所述各个情绪标签中确定所述用户的情绪类别。8.根据权利要求7所述的方法,其特征在于,所述根据阈值判断结果,从所述各个情绪标签中确定所述用户的情绪类别,包括:如果大于所述阈值的概率的个数为一个,则将大于所述阈值的概率所对应的情绪标签作为所述用户的情绪类别;如果大于所述阈值的概率的个数为多个,则判断多个大于所述阈值的概率之间的差值是否小于或等于预设阈值;若是,则确定所述多个大于所述阈值的概率所对应的多个情绪标签,并根据预设策略从所述多个情绪标签中选取目标情绪标签,并将所述目标情绪标签确定为所述用户的情绪类别;若否,则从所述多个大于所述阈值的概率中找出最大概率,并将所述最大概率所对应的情绪标签确定为所述用户的情绪类别。9.根据权利要求8所述的方法,其特征在于,在根据预设策略从所述多个情绪标签中选取目标情绪标签之后,所述方法还包括:增大所述目标情绪标签的概率;根据所述目标情绪标签的增大后的概率,对所述各个情绪标签的概率重新进行归一化。10.一种语音情绪识别装置,其特征在于,包括:语音获取模块,用于获取用户的语音数据;属性信息确定模块,用于根据所述语音数据确定所述用户的用户属性信息;情绪类别确定模块,用于根据所述用户属性信息...

【专利技术属性】
技术研发人员:陈炳金林英展梁一川黄世维
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1