语音会话的情绪识别方法、装置、服务器和存储介质制造方法及图纸

技术编号:19697493 阅读:81 留言:0更新日期:2018-12-08 12:39
本发明专利技术实施例公开了一种语音会话的情绪识别方法、装置、服务器和存储介质,该方法包括:采用先验情绪识别规则对会话语音进行识别得到第一识别结果;采用预先训练的情绪识别模型对所述会话语音进行识别得到第二识别结果;依据所述第一识别结果和所述第二识别结果,得到所述会话语音的情绪状态。本发明专利技术实施例通过将经过大量人工经验及实践过程中积累下来的且被证明实施有效的先验知识融入语音情绪的识别中,在简单的数据比对后就能够快速判断和干预语音情绪识别结果,更快而明确地辅助情绪识别模型效果上的提升,提高情绪识别模型的优化效率以及语音情绪的识别速度和准确度。

【技术实现步骤摘要】
语音会话的情绪识别方法、装置、服务器和存储介质
本专利技术实施例涉及语音处理
,尤其涉及一种语音会话的情绪识别方法、装置、服务器和存储介质。
技术介绍
随着物联网技术的快速发展以及智能硬件产品的广泛推广,越来越多的用户开始使用语音与智能产品进行交流,人机智能语音交互已经成为人工智能技术中的重要交互模式。因此,为了为用户提供更加人性化的服务,通过语音对用户情绪的识别是人工智能所要解决的关键问题之一。目前,现有技术大多采用基于机器学习或深度学习的模型训练方式来获取语音情绪识别模型,并采用基于数据扩展的优化方法,通过标注更多的数据,构建一个更加完善的数据集合,来优化语音情感识别模型;或者采用基于模型调整的优化方法,在数据集合上尝试不同模型或者相同模型的不同参数配置,寻求达到一个更好的模型效果,来优化语音情感识别模型。然而,现有技术以完备的样本数据集合为基础,对人力的消耗大,模型训练的时间长。且模型参数的调整无法直接有效地让模型给予某种特征以特别的关注,效率上无法保证调整出更优效果模型的时间。
技术实现思路
本专利技术实施例提供了一种语音会话的情绪识别方法、装置、服务器和存储介质,能够快速有效地识别出语音会话中用户的情绪状态。第一方面,本专利技术实施例提供了一种语音会话的情绪识别方法,包括:采用先验情绪识别规则对会话语音进行识别得到第一识别结果;采用预先训练的情绪识别模型对所述会话语音进行识别得到第二识别结果;依据所述第一识别结果和所述第二识别结果,得到所述会话语音的情绪状态。第二方面,本专利技术实施例提供了一种语音会话的情绪识别装置,包括:第一识别模块,用于采用先验情绪识别规则对会话语音进行识别得到第一识别结果;第二识别模块,用于采用预先训练的情绪识别模型对所述会话语音进行识别得到第二识别结果;情绪确定模块,用于依据所述第一识别结果和所述第二识别结果,得到所述会话语音的情绪状态。第三方面,本专利技术实施例提供了一种服务器,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术任意实施例所述的语音会话的情绪识别方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术任意实施例所述的语音会话的情绪识别方法。本专利技术实施例通过采用先验情绪识别规则对会话语音进行识别得到第一识别结果,同时采用预先训练的情绪识别模型对会话语音进行识别得到第二识别结果,综合第一识别结果和第二识别结果得到会话语音的情绪状态。本专利技术实施例通过将经过大量人工经验及实践过程中积累下来的且被证明实施有效的先验知识融入语音情绪的识别中,在简单的数据比对后就能够快速判断和干预语音情绪识别结果,更快而明确地辅助情绪识别模型效果上的提升,提高情绪识别模型的优化效率以及语音情绪的识别速度和准确度。附图说明图1为本专利技术实施例一提供的一种语音会话的情绪识别方法的流程图;图2为本专利技术实施例二提供的基于先验情绪识别规则的语音会话情绪识别的流程图;图3为本专利技术实施例二提供的生成先验情绪识别规则的示例图;图4为本专利技术实施例三提供的基于情绪识别模型的语音会话情绪识别的流程图;图5为本专利技术实施例三提供的原始会话语音经傅里叶变换转换为语谱图的示例图;图6为本专利技术实施例四提供的一种语音会话的情绪识别方法的流程图;图7为本专利技术实施例五提供的一种语音会话的情绪识别装置的结构示意图;图8为本专利技术实施例六提供的一种服务器的结构示意图。具体实施方式下面结合附图和实施例对本专利技术实施例作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术实施例,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术实施例相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种语音会话的情绪识别方法的流程图,本实施例可适用于智能语音对话场景中对用户语音情绪进行识别的情况,该方法可由一种语音会话的情绪识别装置来执行。该方法具体包括如下步骤:S110、采用先验情绪识别规则对会话语音进行识别得到第一识别结果。在本专利技术具体实施例中,情绪是对一系列主观认知经验的统称,是指用户通过多种感觉、思想和行为而综合产生的心理和生理状态。进而情绪反应了用户在进行人机语音交互时的心里状态,相应的为了给用户提供更优质更人性化的服务,需要智能产品或智能服务平台时刻掌握用户的情绪状态,从而给予符合用户需求的反馈。本实施例中,会话语音是指用户与智能产品或智能服务平台进行智能语音会话时产生的实时用户语音。该会话语音可以发生在用户与智能产品或智能服务平台交互时的任何交互类场景,例如智能金融场景、智能教育场景以及智能家居场景等。先验情绪识别规则是指经过大量人工经验及实践过程中积累下来的,且被证明实施有效的语音情绪识别规则。可以是依据历史会话语音以及先验情绪识别知识生成的语音声学特征与对应情绪的情绪匹配表,即人工积累的规则列表。具体的,本实施例可以对预设的各情绪状态所关联的历史会话语音进行音频特征提取,其中,音频特征可以包括基频、强度、平均强度、过零率和能量中的至少一个;并依据提取的音频特征生成各情绪状态关联的先验情绪识别规则。本实施例还可以同时确定各情绪状态所发生的场景信息,建立先验情绪识别规则与对应场景的关联关系。进而在对会话语音进行情绪识别时,首先,确定该会话语音所属的当前场景;其次,依据先验情绪识别规则与场景的关联关系,将与当前场景关联的先验情绪识别规则作为待使用的当前先验情绪识别规则;最终,对该会话语音进行简单的音频特征提取,将音频特征与当前先验情绪识别规则进行匹配,从而获得该会话语音基于先验情绪识别规则确定的情绪识别结果,即第一识别结果。示例性的,假设在智能教育场景中,依据人工积累的经验,先验情绪识别规则中可以预先规定与情绪状态“开心”、“满足”、“无聊”以及“焦虑”等教育情景下的情绪状态关联的音频特征,例如语速和音质特征。进而智能产品或智能服务平台通过获取与智能教育场景关联的先验情绪识别规则并实时提取用户语音的音频特征,将音频特征与选定的先验情绪识别规则进行匹配,从而可以获得教育场景下用户当前的情绪状态,获知用户当前的学习状态,为调整用户学习的积极性以及对用户语音进行反馈提供依据。S120、采用预先训练的情绪识别模型对会话语音进行识别得到第二识别结果。在本专利技术具体实施例中,情绪识别模型是指基于深度学习算法预先训练而成的模型,其中深度学习算法可以包括卷积神经网络(ConvolutionalNeuralNetwork,CNN)以及循环神经网络(RecurrentNeuralNetwork,RNN)等深度学习算法。本实施例通过将会话语音转换为语音频谱图,将对语音的识别转换为对图像的识别,进而通过情绪识别模型直接对会话语谱图进行图像识别,避免了语音识别过程中繁复的语音特征提取的中间过程。本实施例不对模型的训练算法进行限定,任何可以实现图像识别的深度学习算法都可以应用于本实施例中。具体的,本实施例首先可以采用傅里叶变换将会话语音信息转换为语音频谱图,作为该会话语音信息的会话语谱图。其次可以采用基于CNN的语谱图识别模型,或者基于RNN的语谱图识别模型,或者两者的结合本文档来自技高网...

【技术保护点】
1.一种语音会话的情绪识别方法,其特征在于,包括:采用先验情绪识别规则对会话语音进行识别得到第一识别结果;采用预先训练的情绪识别模型对所述会话语音进行识别得到第二识别结果;依据所述第一识别结果和所述第二识别结果,得到所述会话语音的情绪状态。

【技术特征摘要】
1.一种语音会话的情绪识别方法,其特征在于,包括:采用先验情绪识别规则对会话语音进行识别得到第一识别结果;采用预先训练的情绪识别模型对所述会话语音进行识别得到第二识别结果;依据所述第一识别结果和所述第二识别结果,得到所述会话语音的情绪状态。2.根据权利要求1所述的方法,其特征在于,在所述采用先验情绪识别规则对会话语音进行识别得到第一识别结果之前,还包括:确定会话语音所属的当前场景;将与所述当前场景关联的先验情绪识别规则作为待使用的当前先验情绪识别规则。3.根据权利要求1所述的方法,其特征在于,在所述采用先验情绪识别规则对会话语音进行识别得到第一识别结果之前,还包括:对预设的各情绪状态所关联的历史会话语音进行音频特征提取;依据提取的音频特征生成各情绪状态关联的先验情绪识别规则。4.根据权利要求1所述的方法,其特征在于,所述采用预先训练的情绪识别模型对所述会话语音进行识别得到第二识别结果,包括:依据所述会话语音信息生成会话语谱图;采用所述情绪识别模型对所述会话语谱图进行处理,得到第二识别结果。5.根据权利要求4所述的方法,其特征在于,所述依据所述会话语音信息生成会话语谱图,包括:采用傅里叶变换将所述会话语音信息转换为语音频谱图,作为所述会话语谱图。6.根据权利要求4所述的方法,其特征在于,所述采用所述情绪识别模型对所述会话语谱图进行处理,得到第二识别结果,包括:采用基于卷积神经网络的语谱图识别模型和/或基于循环神经网络的语谱图识别模型对所述会话语谱图进行处理,得到第二识别结果。7.根据权利要求4所述的方法,其特征在于,所述采用所述情绪识别模型对所述会话语谱图进行处理,得到第二识别结果,包括:将所述会话语谱图作为情绪识别模型中包括的基于卷积神经网络的语谱图识别模型的输入,得到所述...

【专利技术属性】
技术研发人员:陈炳金林英展梁一川凌光周超
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1