一种语音分析用户对话情绪的方法及装置制造方法及图纸

技术编号:26381200 阅读:36 留言:0更新日期:2020-11-19 23:50
本申请实施例提供的一种语音分析用户对话情绪的方法及装置,该方法通过抽取与用户语音数据相对应的若干真实语音部分;对每一真实语音部分进行切割处理,以获取若干短时语音片段;根据情绪识别模型将若干短时语音片段解码为若干短时情绪状态;将相邻且相同的若干短时情绪状态合并为第一稳定情绪状态,其中,一第一稳定情绪状态与一真实语音部分相对应,根据若干第一稳定情绪状态获取第二稳定情绪状态;通过本申请,解决了在将用户语音数据转换为文本数据而获取用户情绪的情况下,会获取错误的用户情绪以及具有滞后性和不确定性的问题,实现了在用户说话的同时,直接分析用户的语音信息,可以实时地获取说话人的情绪的技术效果。

【技术实现步骤摘要】
一种语音分析用户对话情绪的方法及装置
本申请涉及人机交互领域,特别是涉及一种语音分析用户对话情绪的方法及装置。
技术介绍
目前在智能终端进行人机对话的情况下,智能终端可以将获取到的用户语音数据转换为文本数据,然后通过该文本数据获取用户情绪。具体地,智能终端可以通过语音识别系统将用户语音数据转换为文本数据,然后将该文本数据发送到语言理解系统,以获取与用户语音数据相对应的语义理解,然后智能终端根据该语义理解感知获取用户情绪。相关技术中,感知用户情绪比较依赖于语音识别系统识别文本的准确性,若文本识别发出错误,那么也会直接导致智能终端获取错误的用户情绪,从而影响用户的人机对话体验;且语音识别系统也只能在用户说完一句话之后,才能将用户语音数据进行转换为文本数据,然后再获取与用户语音数据相对应的语义理解,从而具有严重的滞后性;且在智能终端与用户进行人机对话的情况下,用户可以使用不同的情绪表达出相同的用户语音数据,从而会使智能终端获取到错误的用户情绪,具有严重的不确定性。目前针对相关技术中在将用户语音数据转换为文本数据而获取用户情绪的情况下,会获取错误的用户情绪以及获取用户情绪具有滞后性和不确定性的问题,尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种语音分析用户对话情绪的方法及装置,以至少解决相关技术中在将用户语音数据转换为文本数据而获取用户情绪的情况下,会获取错误的用户情绪以及具有滞后性和不确定性的问题。第一方面,本专利技术提供了一种语音分析用户对话情绪的方法,包括:获取用户语音数据,并抽取与所述用户语音数据相对应的若干真实语音部分,其中,若干所述真实语音部分均为非静音语音数据;对每一所述真实语音部分进行切割处理,以获取若干短时语音片段,其中,每一所述真实语音部分包括至少一所述短时语音片段;根据情绪识别模型将若干所述短时语音片段解码为若干短时情绪状态,其中,一所述短时语音片段与一所述短时情绪状态相对应;将相邻且相同的若干所述短时情绪状态合并为第一稳定情绪状态,其中,一所述第一稳定情绪状态与一所述真实语音部分相对应;判断若干所述第一稳定情绪状态是否相同;在若干所述第一稳定情绪状态相同的情况下,将若干所述第一稳定情绪状态合并生成一第二稳定情绪状态,其中,所述用户语音数据与一所述第二稳定情绪相对应。进一步地,在判断若干所述第一稳定情绪状态是否相同之后,还包括:在若干所述第一稳定情绪状态不相同的情况下,将相邻且相同的若干所述第一稳定情绪状态合并生成若干第二稳定情绪状态,其中,所述用户语音数据与若干所述第二稳定情绪相对应。进一步地,在根据情绪识别模型将若干所述短时语音片段解码为若干短时情绪状态之前,所述方法还包括:获取带有情绪特征标签的若干训练语音数据,其中,所述情绪特征标签包括正面情绪特征、负面情绪特征;根据若干所述训练语音数据,训练并构建情绪识别模型。进一步地,在若干所述第一稳定情绪状态相同的情况下,将若干所述第一稳定情绪状态合并生成一第二稳定情绪状态之后,所述方法还包括:对所述用户语音数据进行语音识别处理,以获取与所述用户语音数据相对应的文本数据;生成与所述文本数据相对应的应答文本数据;获取与所述第二稳定情绪状态相对应的应答情绪状态;生成与所述应答文本数据以及所述应答情绪状态相对应的应答语音数据。进一步地,将相邻且相同的若干所述短时情绪状态合并为第一稳定情绪状态包括:在若干所述短时情绪状态包括相邻且相同的若干第一短时情绪状态且若干所述第一短时情绪状态之间存在不相邻的若干第二短时情绪状态的情况下,移除不相邻的若干所述第二短时情绪状态;将相邻且相同的若干所述第一短时情绪状态合并为若干所述第一稳定情绪状态。进一步地,将相邻且相同的若干所述短时情绪状态合并为第一稳定情绪状态还包括:在若干所述短时情绪状态包括若干相邻且相同的第一短时情绪状态且若干事实第一短时情绪状态之间存在不相邻的若干第二短时情绪状态以及不相邻的若干所述第一短时情绪状态的情况下,移除不相邻的若干所述第一短时情绪状态以及不相邻的若干所述第二短时情绪状态;将相邻且相同的若干所述第一短时情绪状态合并为若干所述第一稳定情绪状态。第二方面,本专利技术提供了一种语音分析用户对话情绪的装置,包括:抽取模块,用于获取用户语音数据,并抽取与所述用户语音数据相对应的若干真实语音部分,其中,若干所述真实语音部分为非静音语音部分;切割模块,用于对每一所述真实语音部分进行切割处理,以获取若干短时语音片段,其中,每一所述真实语音部分包括至少一所述短时语音片段;解码模块,用于根据情绪识别模型将若干所述短时语音片段解码为若干短时情绪状态,其中,一所述短时语音片段与一所述短时情绪状态相对应;合并模块,用于将相邻且相同的若干所述短时情绪状态合并为第一稳定情绪状态,其中,一所述第一稳定情绪状态与一所述真实语音部分相对应,且在若干所述第一稳定情绪状态相同的情况下,将若干所述第一稳定情绪状态合并生成一第二稳定情绪状态,其中,所述用户语音数据与一所述第二稳定情绪相对应;判断模块,用于判断若干所述第一稳定情绪状态是否相同。进一步地,所述合并模块还用于在若干所述第一稳定情绪状态不相同的情况下,将相邻且相同的若干所述第一稳定情绪状态合并生成若干第二稳定情绪状态,其中,所述用户语音数据与若干所述第二稳定情绪相对应。进一步地,还包括;第一获取模块,用于获取带有情绪特征标签的若干训练语音数据,其中,所述情绪特征标签包括正面情绪特征、负面情绪特征;构建模块,用于根据若干所述训练语音数据,训练并构建所述情绪识别模型。进一步地,还包括:第二获取模块,用于获取所述用户语音数据;语音识别模块,用于对所述用户语音数据进行语音识别处理,以获取与所述用户语音数据相对应的文本数据;文本生成模块,用于生成与所述文本数据相对应的应答文本数据;第三获取模块,用于获取与所述第二稳定情绪状态相对应的应答情绪状态;语音生成模块,用于生成与所述应答文本数据以及所述应答情绪状态相对应的应答语音数据。进一步地,还包括:移除模块,用于在若干所述短时情绪状态包括相邻且相同的若干第一短时情绪状态且若干第一短时情绪状态之间存在若干不相邻的第二短时情绪状态的情况下,移除不相邻的若干所述第二短时情绪状态;所述合并模块还用于将相邻且相同的若干所述第一短时情绪状态合并为若干第一稳定情绪状态。第三方面,本专利技术还提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上第一方面所述的语音分析用户对话情绪的方法。第四方面,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上第一方面所述的语音分析用户对话情绪的方本文档来自技高网...

【技术保护点】
1.一种语音分析用户对话情绪的方法,其特征在于,包括:/n获取用户语音数据,并抽取与所述用户语音数据相对应的若干真实语音部分,其中,若干所述真实语音部分均为非静音语音数据;/n对每一所述真实语音部分进行切割处理,以获取若干短时语音片段,其中,每一所述真实语音部分包括至少一所述短时语音片段;/n根据情绪识别模型将若干所述短时语音片段解码为若干短时情绪状态,其中,一所述短时语音片段与一所述短时情绪状态相对应;/n将相邻且相同的若干所述短时情绪状态合并为第一稳定情绪状态,其中,一所述第一稳定情绪状态与一所述真实语音部分相对应;/n判断若干所述第一稳定情绪状态是否相同;/n在若干所述第一稳定情绪状态相同的情况下,将若干所述第一稳定情绪状态合并生成一第二稳定情绪状态,其中,所述用户语音数据与一所述第二稳定情绪相对应。/n

【技术特征摘要】
1.一种语音分析用户对话情绪的方法,其特征在于,包括:
获取用户语音数据,并抽取与所述用户语音数据相对应的若干真实语音部分,其中,若干所述真实语音部分均为非静音语音数据;
对每一所述真实语音部分进行切割处理,以获取若干短时语音片段,其中,每一所述真实语音部分包括至少一所述短时语音片段;
根据情绪识别模型将若干所述短时语音片段解码为若干短时情绪状态,其中,一所述短时语音片段与一所述短时情绪状态相对应;
将相邻且相同的若干所述短时情绪状态合并为第一稳定情绪状态,其中,一所述第一稳定情绪状态与一所述真实语音部分相对应;
判断若干所述第一稳定情绪状态是否相同;
在若干所述第一稳定情绪状态相同的情况下,将若干所述第一稳定情绪状态合并生成一第二稳定情绪状态,其中,所述用户语音数据与一所述第二稳定情绪相对应。


2.根据权利要求1所述的方法,其特征在于,在判断若干所述第一稳定情绪状态是否相同之后,还包括:
在若干所述第一稳定情绪状态不相同的情况下,将相邻且相同的若干所述第一稳定情绪状态合并生成若干第二稳定情绪状态,其中,所述用户语音数据与若干所述第二稳定情绪相对应。


3.根据权利要求1所述的方法,其特征在于,在根据情绪识别模型将若干所述短时语音片段解码为若干短时情绪状态之前,所述方法还包括:
获取带有情绪特征标签的若干训练语音数据,其中,所述情绪特征标签包括正面情绪特征、负面情绪特征;
根据若干所述训练语音数据,训练并构建情绪识别模型。


4.根据权利要求1所述的方法,其特征在于,在若干所述第一稳定情绪状态相同的情况下,将若干所述第一稳定情绪状态合并生成一第二稳定情绪状态之后,所述方法还包括:
对所述用户语音数据进行语音识别处理,以获取与所述用户语音数据相对应的文本数据;
生成与所述文本数据相对应的应答文本数据;
获取与所述第二稳定情绪状态相对应的应答情绪状态;
生成与所述应答文本数据以及所述应答情绪状态相对应的应答语音数据。


5.根据权利要求1所述的方法,其特征在于,将相邻且相同的若干所述短时情绪状态合并为第一稳定情绪状态包括:
在若干所述短时情绪状态包括相邻且相同的若干第一短时情绪状态且若干所述第一短时情绪状态之间存在不相邻的若干第二短时情绪状态的情况下,移除不相邻的若干所述第二短时情绪状态;
将相邻且相同的若干所述第一短时情绪状态合并为若干所述第...

【专利技术属性】
技术研发人员:李旭滨范红亮
申请(专利权)人:上海茂声智能科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1