语音情感识别方法及装置制造方法及图纸

技术编号:31753696 阅读:20 留言:0更新日期:2022-01-05 16:35
本发明专利技术提供一种语音情感识别方法及装置,其中方法包括:获取原始语音集,所述原始语音集包括待识别语音和上下文语音;将所述原始语音集输入至语音情感识别模型,获得所述语音情感识别模型输出的所述待识别语音的识别结果;其中,所述语音情感识别模型是基于语音样本以及对应的识别标签进行训练后得到的,用于基于所述上下文语音对所述待识别语音进行语音情感识别;所述识别标签是根据所述语音样本预先确定的,并与所述语音样本一一对应;所述语音样本包括待识别语音样本和上下文语音样本。本发明专利技术提供的语音情感识别方法,通过结合上下文语音情感特征和待识别语音的语音情感特征,提高了语音情感识别正确率。高了语音情感识别正确率。高了语音情感识别正确率。

【技术实现步骤摘要】
语音情感识别方法及装置


[0001]本专利技术涉及计算机
,尤其涉及一种语音情感识别方法及装置。

技术介绍

[0002]现有技术中对语音情感识别通常是对单一语音片段进行语音情感识别。现有技术中的语音情感识别方法将单一的原始语音数据输入至语音识别模块,获得转换后的文字,将转换后的文字输入至文本特征提取模块,得到文本特征,将原始语音数据输入至语音特征提取模块得到语音特征,再将语音特征和文本特征对齐后输入分类模块,获得分类结果。
[0003]虽然现有技术将单一语音片段的语音特征和文本特征进行了融合,但没有考虑到在真实语境中,某一片段的情感状态是和上下文语音有关的,现有技术中的语音情感识别方法中忽略了对说话者的上下文信息,导致语音情感识别存在识别准确率低的问题。

技术实现思路

[0004]本专利技术提供一种语音情感识别方法及装置,用以解决现有技术中语音情感识别存在识别准确率低的缺陷,提高了语音情感识别的准确率。
[0005]第一方面,本专利技术提供一种语音情感识别方法,包括:获取原始语音集,所述原始语音集包括待识别语音和上下文语音;将所述原始语音集输入至语音情感识别模型,获得所述语音情感识别模型输出的所述待识别语音的识别结果;其中,所述语音情感识别模型是基于语音样本以及对应的识别标签进行训练后得到的,用于基于所述上下文语音对所述待识别语音进行语音情感识别;所述识别标签是根据所述语音样本预先确定的,并与所述语音样本一一对应;所述语音样本包括待识别语音样本和上下文语音样本。
[0006]可选的,所述语音情感识别模型包括:特征提取模块、说话者上下文模块、二级特征融合模块和分类模块;所述将所述原始语音集输入至语音情感识别模型,输出所述待识别语音的识别结果,具体包括:将所述原始语音集输入至所述特征提取模块,获得所述特征提取模块输出的所述原始语音集的句级特征、所述待识别语音的帧级特征和第一矩阵;将所述句级特征和所述第一矩阵输入至所述说话者上下文模块,获得所述说话者上下文模块输出的上下文融合特征;将所述上下文融合特征和所述帧级特征输入至所述二级特征融合模块,获得所述二级特征融合模块输出的二级融合特征;将所述二级融合特征输入至所述分类模块,获得所述分类模块输出的识别结果;其中,所述第一矩阵用于分离所述上下文语音对所述待识别语音的影响。
[0007]可选的,所述将句级特征和第一矩阵输入至说话者上下文模块,获得说话者上下文模块输出的上下文融合特征,具体包括:基于所述句级特征和所述第一矩阵获得影响信息矩阵,所述影响信息矩阵用于表示所述上下文语音对所述待识别语音的影响;将所述影响信息矩阵与内容向量拼接融合获得语音集融合特征,所述内容向量是基于所述句级特征获得的;在所述语音集融合特征中提取所述待识别语音对应的融合特征,获得所述上下文融合特征。
[0008]可选的,所述基于句级特征和第一矩阵获得影响信息矩阵,具体包括:将所述句级特征经过第一全连接层,获得查询矩阵;将所述句级特征经过第二全连接层,获得被查矩阵;将所述句级特征经过第三全连接层,获得所述内容向量;基于所述第一矩阵、所述查询矩阵、所述被查矩阵、所述内容向量和预设影响力公式获得所述影响信息矩阵。
[0009]可选的,所述预设影响力公式为:其中,Y为所述影响信息矩阵,为softmax函数,K为所述查询矩阵,Q
T
为所述被查矩阵的转置,mask1为所述第一矩阵,V为所述内容向量。
[0010]可选的,所述将所述上下文融合特征和所述帧级特征输入至所述二级特征融合模块,获得所述二级特征融合模块输出的二级融合特征,具体包括:帧级特征输入至长短期记忆循环神经网络,获得循环帧级特征;将上下文融合特征和循环帧级特征进行拼接融合,得到二级融合特征。
[0011]可选的,将二级融合特征输入至分类模块,获得分类模块输出的识别结果,具体包括:
[0012]将二级融合特征依次输入全连接层和softmax函数,获得分类结果。
[0013]第二方面,本专利技术还提供一种语音情感识别装置,包括:获取单元,用于获取原始语音集,原始语音集包括待识别语音和上下文语音;识别单元,用于将原始语音集输入至语音情感识别模型,获得语音情感识别模型输出的待识别语音的识别结果;其中,语音情感识别模型是基于语音样本以及对应的识别标签进行训练后得到的,用于基于上下文语音对待识别语音进行语音情感识别;识别标签是根据语音样本预先确定的,并与语音样本一一对应;语音样本包括待识别语音样本和上下文语音样本。
[0014]第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音情感识别方法的步骤。
[0015]第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音情感识别方法的步骤。
[0016]第五方面,本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音情感识别方法的步骤。
[0017]本专利技术提供的语音情感识别方法及装置,通过基于上下文语音对待识别语音进行语音情感识别,结合上下文语音情感特征和待识别语音的语音情感特征,实现了提高语音情感识别正确率。
附图说明
[0018]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0019]图1是本专利技术实施例提供的语音情感识别方法的流程示意图;
[0020]图2是本专利技术实施例提供的语音情感识别模型的数据处理示意图;
[0021]图3是本专利技术实施例提供的说话者上下文模块的数据处理示意图;
[0022]图4是本专利技术实施例提供的二级特征融合模块的数据处理示意图;
[0023]图5是本专利技术实施例提供的语音情感识别装置的结构示意图;
[0024]图6是本专利技术实施例提供的电子设备的结构示意图。
具体实施方式
[0025]为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]下面结合图1

图4描述本专利技术实施例提供的语音情感识别方法。
[0027]参考图1,图1是本专利技术实施例提供的语音情感识别方法的流程示意图。本专利技术实施例提供的语音情感识别方法,包括:
[0028]步骤110,获取原始语音集,原始语音集包括待识别语音和上下文语音;
[0029]步骤120,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音情感识别方法,其特征在于,包括:获取原始语音集,所述原始语音集包括待识别语音和上下文语音;将所述原始语音集输入至语音情感识别模型,获得所述语音情感识别模型输出的所述待识别语音的识别结果;其中,所述语音情感识别模型是基于语音样本以及对应的识别标签进行训练后得到的,用于基于所述上下文语音对所述待识别语音进行语音情感识别;所述识别标签是根据所述语音样本预先确定的,并与所述语音样本一一对应;所述语音样本包括待识别语音样本和上下文语音样本。2.根据权利要求1所述的语音情感识别方法,其特征在于,所述语音情感识别模型包括:特征提取模块、说话者上下文模块、二级特征融合模块和分类模块;所述将所述原始语音集输入至语音情感识别模型,输出所述待识别语音的识别结果,具体包括:将所述原始语音集输入至所述特征提取模块,获得所述特征提取模块输出的所述原始语音集的句级特征、所述待识别语音的帧级特征和第一矩阵;将所述句级特征和所述第一矩阵输入至所述说话者上下文模块,获得所述说话者上下文模块输出的上下文融合特征;将所述上下文融合特征和所述帧级特征输入至所述二级特征融合模块,获得所述二级特征融合模块输出的二级融合特征;将所述二级融合特征输入至所述分类模块,获得所述分类模块输出的识别结果;其中,所述第一矩阵用于分离所述上下文语音对所述待识别语音的影响。3.根据权利要求2所述的语音情感识别方法,其特征在于,所述将所述句级特征和所述第一矩阵输入至所述说话者上下文模块,获得所述说话者上下文模块输出的上下文融合特征,具体包括:基于所述句级特征和所述第一矩阵获得影响信息矩阵,所述影响信息矩阵用于表示所述上下文语音对所述待识别语音的影响;将所述影响信息矩阵与内容向量拼接融合获得语音集融合特征,所述内容向量是基于所述句级特征获得的;在所述语音集融合特征中提取所述待识别语音对应的融合特征,获得所述上下文融合特征。4.根据权利要求3所述的语音情感识别方法,其特征在于,所述基于所述句级特征和所述第一矩阵获得影响信息矩阵,具体包括:将所述句级特征经过第一全连接层,获得查询矩阵;将所述句级特征经过第二全连接层,获得被查矩阵;将所述句级...

【专利技术属性】
技术研发人员:李建强宋长伟付光晖
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1