一种语音情绪识别方法、装置、设备及存储介质制造方法及图纸

技术编号:25402101 阅读:56 留言:0更新日期:2020-08-25 23:06
本发明专利技术公开了一种语音情绪识别方法、装置、设备及存储介质,该方法包括:获取语音数据;对语音数据进行信息提取,获取统计学特征和时间序列特征;将统计学特征和时间序列特征作为输入参数,输入至结构化递归神经网络模型中,输出得到语音情绪种类。该方法实现提升识别效率。

【技术实现步骤摘要】
一种语音情绪识别方法、装置、设备及存储介质
本专利技术涉及计算机
,特别是涉及一种语音情绪识别方法、装置、设备及存储介质。
技术介绍
目前,在人机交互过程中,计算机是否可以体会并理解人的喜怒哀乐具有非常重要的意义。这可以帮助我们在特定场景中赋予计算机像人类一样的观察、理解能力。语音信息是人类表达情绪更加直接的方式。声调的起伏,响度的高低或是说话的快慢,这些信息中都包含了大量的作为判断情绪的特征。传统处理声学信息的方法,往往是通过语音转文字,再对其文本进行情绪分析这样将其转换为自然语言NLP领域的情绪识别方法。但是这样的情绪识别方法需要进行语音转换文本的过程,过程繁琐,导致更加繁重的资源消耗,效率较低。因此,如何提升识别效率是亟待解决的问题。
技术实现思路
本专利技术的目的是提供一种语音情绪识别方法、装置、设备及存储介质,以实现提升识别效率。为解决上述技术问题,本专利技术提供一种语音情绪识别方法,包括:获取语音数据;对语音数据进行信息提取,获取统计学特征和时间序列特征;将统计学特征和时间序列特征作为输入参数,输入至结构化递归神经网络模型中,输出得到语音情绪种类。优选的,所述获取语音数据之前,还包括:构建结构化递归神经网络模型。优选的,所述构建结构化递归神经网络模型,包括:获取语音训练数据集,对语音训练数据集进行信息提取,获取语音训练数据集的统计学特征和时间序列特征采用Bi-GRU神经网络对统计学特征时间序列特征进行训练学习,得到结构化递归神经网络模型。优选的,所述采用Bi-GRU神经网络对统计学特征时间序列特征进行训练学习,得到结构化递归神经网络模型,包括:对时间序列特征进行帧级处理,得到话语级嵌入向量uemb;对统计学特征进行非线性变换得到高阶统计学特征uop;利用话语级嵌入向量uemb、高阶统计学特征uop进行融合处理,得到融合特征uF;对融合特征uF进行话语级处理,得到声学情绪特征Aj;利用声学情绪特征Aj计算交叉熵损失loss;以交叉熵损失loss为目标函数,对统计学特征时间序列特征进行训练学习,当loss的数值不再降低时,终止训练学习,将最后训练得到的神经网络模型作为结构化递归神经网络模型。优选的,融合特征uF的计算表达式为:其中,Softmax为归一化函数,代表张量积,T代表转置。优选的,所述对语音数据进行信息提取,获取统计学特征和时间序列特征,包括:对语音数据进行预处理;采样特征工程方法从预处理后的语音数据中提取统计学特征和时间序列特征;对于提取的统计学特征和时间序列特征,将不同长度的特征进行填充补齐。优选的,所述结构化递归神经网络模型包括帧级模块、话语级模块和融合模块。本专利技术还提供一种语音情绪识别装置,包括:获取单元,用于获取语音数据;提取单元,用于对语音数据进行信息提取,获取统计学特征和时间序列特征;输入单元,用于将统计学特征和时间序列特征作为输入参数,输入至结构化递归神经网络模型中,输出得到语音情绪种类。本专利技术还提供一种语音情绪识别设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上任一项所述的语音情绪识别方法的步骤。本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述语音情绪识别方法的步骤。本专利技术所提供的一种语音情绪识别方法、装置、设备及存储介质,获取语音数据;对语音数据进行信息提取,获取统计学特征和时间序列特征;将统计学特征和时间序列特征作为输入参数,输入至结构化递归神经网络模型中,输出得到语音情绪种类。可见,直接从语音数据中获取统计学特征和时间序列特征,将统计学特征和时间序列特征输入至结构化递归神经网络模型中,就能获取语音情绪种类,输出结果就是语音情绪,这个过程非常简单便捷,无需进行语音转文字的复杂流程,避免了更多的计算任务,提升识别效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术所提供的一种语音情绪识别方法的流程图;图2为语音情绪识别算法总体流程图;图3为特征融合模型结构图;图4为结构化递归神经网络结构图;图5为典型的递归神经网络结构图;图6为本专利技术所提供的一种语音情绪识别装置结构示意图;图7为本专利技术所提供的一种语音情绪识别设备结构示意图。具体实施方式本专利技术的核心是提供一种语音情绪识别方法、装置、设备及存储介质,以实现提升识别效率。为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参考图1,图1为本专利技术所提供的一种语音情绪识别方法的流程图,该方法包括以下步骤:S11:获取语音数据;S12:对语音数据进行信息提取,获取统计学特征和时间序列特征;S13:将统计学特征和时间序列特征作为输入参数,输入至结构化递归神经网络模型中,输出得到语音情绪种类。可见,该方法中,直接从语音数据中获取统计学特征和时间序列特征,将统计学特征和时间序列特征输入至结构化递归神经网络模型中,就能获取语音情绪种类,输出结果就是语音情绪,这个过程非常简单便捷,无需进行语音转文字的复杂流程,避免了更多的计算任务,提升识别效率。并且,本方法不必进行语音转化文本过程,节省资源消耗。而且只需使用少量的标注数据训练,可以由训练的结构化递归神经网络模型立即给出结果,不需要复杂的人工分析。另外本方法简单易行,只需要输入一段语音信息,无论语种,无论是否存在文本数据都可直接给出预测结果。这样在语音无法识别转换为文本的情况下,本方法依然可以得到情绪识别结果。基于上述方法,进一步的,步骤S12的过程包括以下步骤:S21:对语音数据进行预处理;S22:采样特征工程方法从预处理后的语音数据中提取统计学特征和时间序列特征;S23:对于提取的统计学特征和时间序列特征,将不同长度的特征进行填充补齐。针对情绪种类的分类预测,主要是根据输入的原始语音数据,利用基于结构化声学信息的预测方法和模型计算语音的情绪类别,并根据不同情绪在人机交互中作为进一步响应。预处理中,第一步是数字化工作,这里指将语音原始数据转化为计算机可以处理的形式的过程。由于本文档来自技高网
...

【技术保护点】
1.一种语音情绪识别方法,其特征在于,包括:/n获取语音数据;/n对语音数据进行信息提取,获取统计学特征和时间序列特征;/n将统计学特征和时间序列特征作为输入参数,输入至结构化递归神经网络模型中,输出得到语音情绪种类。/n

【技术特征摘要】
1.一种语音情绪识别方法,其特征在于,包括:
获取语音数据;
对语音数据进行信息提取,获取统计学特征和时间序列特征;
将统计学特征和时间序列特征作为输入参数,输入至结构化递归神经网络模型中,输出得到语音情绪种类。


2.如权利要求1所述的方法,其特征在于,所述获取语音数据之前,还包括:
构建结构化递归神经网络模型。


3.如权利要求2所述的方法,其特征在于,所述构建结构化递归神经网络模型,包括:
获取语音训练数据集,对语音训练数据集进行信息提取,获取语音训练数据集的统计学特征和时间序列特征
采用Bi-GRU神经网络对统计学特征时间序列特征进行训练学习,得到结构化递归神经网络模型。


4.如权利要求3所述的方法,其特征在于,所述采用Bi-GRU神经网络对统计学特征时间序列特征进行训练学习,得到结构化递归神经网络模型,包括:
对时间序列特征进行帧级处理,得到话语级嵌入向量uemb;
对统计学特征进行非线性变换得到高阶统计学特征uop;
利用话语级嵌入向量uemb、高阶统计学特征uop进行融合处理,得到融合特征uF;
对融合特征uF进行话语级处理,得到声学情绪特征Aj;
利用声学情绪特征Aj计算交叉熵损失loss;
以交叉熵损失loss为目标函数,对统计学特征时间序列特征进行训练学习,当loss的数值不再降低时,终止训练学习,将最后训练得到的神经网络模型作为结构化递归神...

【专利技术属性】
技术研发人员:李净
申请(专利权)人:北京慧闻科技集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1