识别情绪的方法、训练情绪识别模型的方法、装置及设备制造方法及图纸

技术编号:32129072 阅读:13 留言:0更新日期:2022-01-29 19:24
本公开提供了一种识别情绪的方法,涉及人工智能领域,尤其涉及深度学习领域。具体实现方案为:获取目标数据的第一内容特征和第一音频特征;将第一内容特征输入第一特征提取模型,得到第二内容特征;将第一音频特征输入第一特征提取模型,得到第二音频特征;以及根据第二内容特征和第二音频特征,识别与目标数据对应的目标对象的情绪。本公开还提供了一种训练情绪识别模型的方法、装置、电子设备和存储介质。介质。介质。

【技术实现步骤摘要】
识别情绪的方法、训练情绪识别模型的方法、装置及设备


[0001]本公开涉及人工智能
,尤其涉及深度学习技术。更具体地,本公开提供了一种识别情绪的方法、训练情绪识别模型的方法、装置、电子设备和存储介质。

技术介绍

[0002]语音是人类交流中情感的重要载体。人们在不同情绪状态下的语言表达方式有所不同。例如,内容相同的语句附带不同的情绪,可以表达出完全不同的含义。

技术实现思路

[0003]本公开提供了一种识别情绪的方法、训练情绪识别模型的方法、装置、设备以及存储介质。
[0004]根据第一方面,提供了一种识别情绪的方法,该方法包括:获取目标数据的第一内容特征和第一音频特征;将上述第一内容特征输入第一特征提取模型,得到第二内容特征;将上述第一音频特征输入第一特征提取模型,得到第二音频特征;以及根据上述第二内容特征和上述第二音频特征,识别与目标数据对应的目标对象的情绪。
[0005]根据第二方面,提供了一种训练情绪识别模型的方法,上述情绪识别模型包括第一特征提取模型,该方法包括:获取样本数据的第一内容特征和第一音频特征;将上述第一内容特征输入第一特征提取模型,得到第二内容特征;将上述第一音频特征输入第一特征提取模型,得到第二音频特征;根据上述第二内容特征和上述第二音频特征,识别与上述样本数据对应的样本对象的情绪;根据上述样本对象的情绪和上述样本数据的标签,得到损失值;以及根据上述损失值,训练上述情绪识别模型。
[0006]根据第三方面,提供了一种识别情绪的装置,该装置包括:第一获取模块,用于获取目标数据的第一内容特征和第一音频特征;第一获得模块,用于将上述第一内容特征输入第一特征提取模型,得到第二内容特征;第二获得模块,用于将上述第一音频特征输入第一特征提取模型,得到第二音频特征;以及第一识别模块,用于根据上述第二内容特征和上述第二音频特征,识别与目标数据对应的目标对象的情绪。
[0007]根据第四方面,提供了一种训练情绪识别模型的装置,上述情绪识别模型包括第一特征提取模型,该装置包括:第二获取模块,用于获取样本数据的第一内容特征和第一音频特征;第三获得模块,用于将上述第一内容特征输入第一特征提取模型,得到第二内容特征;第四获得模块,用于将上述第一音频特征输入第一特征提取模型,得到第二音频特征;第二识别模块,用于根据上述第二内容特征和上述第二音频特征,识别与上述样本数据对应的样本对象的情绪;第五获得模块,用于根据上述样本对象的情绪和上述样本数据的标签,得到损失值;以及训练模块,用于根据上述损失值,训练上述情绪识别模型。
[0008]根据第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开提供的方法。
[0009]根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行根据本公开提供的方法。
[0010]根据第七方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序在被处理器执行时实现根据本公开提供的方法。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开一个实施例的识别情绪的方法的流程图;
[0014]图2A是根据本公开一个实施例的链式图结构的示意图;
[0015]图2B是根据本公开一个实施例的线式图结构的示意图;
[0016]图3是根据本公开一个实施例的识别情绪的方法的原理图;
[0017]图4是根据本公开一个实施例的训练情绪识别模型的方法的流程图;
[0018]图5是根据本公开一个实施例的训练情绪识别模型的方法的原理图;
[0019]图6是根据本公开一个实施例的识别情绪的装置的框图;
[0020]图7是根据本公开一个实施例的训练情绪识别模型的装置的框图;以及
[0021]图8是根据本公开的一个实施例的可以应用识别情绪的方法和/或训练情绪识别模型的方法的电子设备的框图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]不同情绪状态下的语言表达方式有所不同。例如,在情绪为高兴时,语调会比较欢快。又例如,在情绪为烦躁或伤心时,语调会比较沉闷。
[0024]深度学习技术加速了从语音中识别情绪的发展。但是这方面的研究仍存在不足。比如,不同对象对于同一段语音,表达出的情感不尽相同,然而相关技术不易识别出不同的情感。
[0025]目前为了提高情绪识别模型的效果,可以优化前端特征提取,比如,可以提取语音的MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数),以提高识别情绪的准确性。又例如,也可以提高特征的维度,比如将特征维度由40维提高至80维,以提高识别情绪的准确性。但优化前端特征提取这一技术手段,不能明显提高情绪识别的准确性。
[0026]图1是根据本公开一个实施例的识别情绪的方法的流程图。
[0027]如图1所示,该方法100可以包括操作S110至操作S140。
[0028]在操作S110,获取目标数据的第一内容特征和第一音频特征。
[0029]在本公开实施例中,目标数据可以是语音数据。
[0030]例如,目标数据可以是来源于目标对象的一段语音。
[0031]在本公开实施例中,目标数据可以是视频数据中的语音数据。
[0032]例如,可以采集目标对象的视频数据。目标数据可以是从该视频数据中提取的语音数据。在一个示例中,可以采集针对目标对象的视频数据,将视频数据中的音频流作为目标数据。
[0033]在本公开实施例中,可以将目标数据输入第二特征提取模型,得到目标数据的文本信息和时间信息。
[0034]例如,第二特征提取模型可以包括强制对齐子模型。在一些示例中,强制对齐子模型可以是GMM

HMM(Gaussian Mixture Model

Hidden Markov Model,高斯混合

隐马尔科夫模型),也可以是LSTM

CTC(Long

Short Term Memory

Connectionist Temporal Classifie本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别情绪的方法,包括:获取目标数据的第一内容特征和第一音频特征;将所述第一内容特征输入第一特征提取模型,得到第二内容特征;将所述第一音频特征输入第一特征提取模型,得到第二音频特征;以及根据所述第二内容特征和所述第二音频特征,识别与目标数据对应的目标对象的情绪。2.根据权利要求1所述的方法,其中,所述第一特征提取模型包括图卷积子模型,所述图卷积子模型采用的图结构为链式图结构,与所述链式图结构对应的第一邻接矩阵为:其中,A
C
为所述第一邻接矩阵,a为大于0的实数;其中,所述第一邻接矩阵为N*N的矩阵,N为大于2的正整数,所述第一邻接矩阵的第i+1个行向量是根据第i个行向量向右循环一位得到的,i为大于1且小于等于N

2的整数。3.根据权利要求1所述的方法,其中,所述第一特征提取模型包括图卷积子模型,所述图卷积子模型采用的图结构为线式图结构,与所述线式图结构对应的第二邻接矩阵为:其中,A
L
为所述第二邻接矩阵,b为大于0的实数;其中,所述第二邻接矩阵为M*M的矩阵,M为大于2的正整数,所述第二邻接矩阵的第j+1个行向量是根据第j个行向量向右循环一位得到的,j为大于1且小于等于M

2的整数。4.根据权利要求1所述的方法,其中,所述获取目标数据的第一内容特征和第一音频特征包括:将所述目标数据输入第二特征提取模型,得到所述目标数据的文本信息和时间信息;根据所述文本信息,得到所述第一内容特征;根据所述文本信息和所述时间信息,得到所述第一音频特征。5.根据权利要求2或3所述的方法,其中,所述图卷积子模型包括第一图卷积网络,所述第一图卷积网络包括H个第一图卷积层,所述将所述第一内容特征输入第一特征提取模型,得到第二内容特征包括:将所述第一内容特征输入第1个第一图卷积层,得到第1个第一中间特征;将第h个第一中间特征输入第h+1个第一图卷积层,得到第h+1个第一中间特征,h=1,
……
H

1;根据H个第一中间特征,得到所述第二内容特征。6.根据权利要求2或3所述的方法,其中,所述图卷积子模型包括第二图卷积网络,所述第二图卷积网络包括K个第二图卷积层,所述将所述第一音频特征输入第一特征提取模型,得到第二音频特征包括:将所述第一音频特征输入第1个第二图卷积层,得到第1个第二中间特征;
将第k个第二中间特征输入第k+1个第二图卷积层,得到第k+1个第二中间特征,k=1,
……
K

1;根据K个第二中间特征,得到所述第二音频特征。7.根据权利要求1至6任一项所述的方法,其中,所述根据所述第二内容特征和所述第二音频特征,识别与目标数据对应的目标对象的情绪包括:对第二内容特征和第二音频特征执行融合操作,得到融合特征;根据所述融合特征,识别所述目标对象的情绪。8.一种训练情绪识别模型的方法,所述情绪识别模型包括第一特征提取模型,包括:获取样本数据的第一内容特征和第一音频特征;将所述第一内容特征输入第一特征提取模型,得到第二内容特征;将所述第一音频特征输入第一特征提取模型,得到第二音频特征;根据所述第二内容特征和所述第二音频特征,识别与所述样本数据对应的样本对象的情绪;根据所述样本对象的情绪和所述样本数据的标签,得到损失值;以及根据所述损失值,训练所述情绪识别模型。9.根据权利要求8所述的方法,其中,所述第一特征提取模型包括图卷积子模型,所述图卷积子模型采用的图结构为链式图结构,与所述链式图结构对应的第一邻接矩阵为:其中,A
C
为所述第一邻接矩阵,a为大于0的实数;其中,所述第一邻接矩阵为N*N的矩阵,N为大于2的正整数;所述第一邻接矩阵的第i+1个行向量是根据第i个行向量向右循环一位得到的,i为大于1且小于等于N

2的整数。10.根据权利要求8所述的方法,其中,所述第一特征提取模型包括图卷积...

【专利技术属性】
技术研发人员:赵情恩
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1