多模态情感识别方法、装置、设备及存储介质制造方法及图纸

技术编号:26260094 阅读:35 留言:0更新日期:2020-11-06 17:55
本发明专利技术属于情感识别技术领域,公开了一种多模态情感识别方法、装置、设备及存储介质。该方法包括:获取待识别语音音频的语音特征和文本特征;对所述语音特征和所述文本特征进行相关性对齐,获得与所述文本特征对齐的目标语音信息和与所述语音特征对齐的目标文本信息;对所述目标语音信息与所述目标文本信息进行融合,获得目标待识别信息;根据所述目标待识别信息进行情感识别,得到情感识别结果。通过上述方式,对语音特征和文本特征进行了相关性对齐,得到更具识别性的双向对齐特征,并对双向对齐的特征信息进行了融合,为情感识别提供了更具有区分性的待识别信息,提高情感识别结果的准确性。

【技术实现步骤摘要】
多模态情感识别方法、装置、设备及存储介质
本专利技术涉及情感识别
,尤其涉及一种多模态情感识别方法、装置、设备及存储介质。
技术介绍
情感识别是任何情感感知的人机交互系统的核心组成部分,如智能虚拟助手和情感对话系统。情感识别器通常用于分析语音、文本或图像。例如,语言情感识别器的目标是识别语言中所包含的情感,通常是根据一系列的情感类别,如快乐、愤怒、悲伤和中性。然而,这是一项艰巨的任务,因为情感表现为会话话语、语音内容、韵律特征等多种因素。现有技术中,仅根据语音声学特征,或者仅根据语音文本中的离散字序列,很难预测语音的真实情感,造成情感识别结果准确性不高。上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
本专利技术的主要目的在于提供一种多模态情感识别方法、装置、设备及存储介质,旨在解决现有技术情感识别结果准确性不高的技术问题。为实现上述目的,本专利技术提供了一种多模态情感识别方法,所述方法包括以下步骤:获取待识别语音音频的语音特征和文本特征;对所述本文档来自技高网...

【技术保护点】
1.一种多模态情感识别方法,其特征在于,所述多模态情感识别方法包括:/n获取待识别语音音频的语音特征和文本特征;/n对所述语音特征和所述文本特征进行相关性对齐,获得与所述文本特征对齐的目标语音信息和与所述语音特征对齐的目标文本信息;/n对所述目标语音信息与所述目标文本信息进行融合,获得目标待识别信息;/n根据所述目标待识别信息进行情感识别,得到情感识别结果。/n

【技术特征摘要】
1.一种多模态情感识别方法,其特征在于,所述多模态情感识别方法包括:
获取待识别语音音频的语音特征和文本特征;
对所述语音特征和所述文本特征进行相关性对齐,获得与所述文本特征对齐的目标语音信息和与所述语音特征对齐的目标文本信息;
对所述目标语音信息与所述目标文本信息进行融合,获得目标待识别信息;
根据所述目标待识别信息进行情感识别,得到情感识别结果。


2.如权利要求1所述的多模态情感识别方法,其特征在于,获取待识别语音音频的语音特征的步骤,具体包括:
获取待识别语音音频的语音序列;
将所述语音序列输入至第一卷积神经网络,以对所述语音序列进行编码,获得语音向量序列;
将所述语音向量序列输入至第一双向长短期记忆网络,以对所述语音向量序列进行编码,获得双向语音向量特征;
对所述双向语音向量特征进行拼接,获得语音特征;
相应的,获取待识别语音音频的文本特征的步骤,具体包括:
获取待识别语音音频的文本序列;
将所述文本序列输入至第二卷积神经网络,以对所述文本序列进行编码,获得文本向量序列;
将所述文本向量序列输入至第二双向长短期记忆网络,以对所述文本向量序列进行编码,获得双向文本向量特征;
对所述双向文本向量特征进行拼接,获得文本特征。


3.如权利要求2所述的多模态情感识别方法,其特征在于,所述对所述目标语音信息与所述目标文本信息进行融合,获得目标待识别信息的步骤,具体包括:
根据所述目标语音信息与所述目标文本信息生成目标特征;
获取所述第一双向长短期记忆网络的隐藏层输出的语音信息和所述第二双向长短期记忆网络的隐藏层输出的文本信息;
根据所述隐藏层输出的语音信息和所述隐藏层输出的文本信息生成隐藏层特征;
对所述目标特征和隐藏层特征进行融合,得到目标待识别信息。


4.如权利要求3所述的多模态情感识别方法,其特征在于,所述根据所述目标语音信息与所述目标文本信息生成目标特征的步骤,具体包括:
根据目标语音信息和所述目标文本信息通过预设分组门控融合层得到目标组门控贡献值;
获取所述目标语音信息对应的目标语音信息权重;
获取所述目标文本信息对应的目标文本信息权重;
根据所述目标语音信息、所述目标文本信息、所述目标语音信息权重、所述目标文本信息权重以及所述目标组门控贡献生成目标特征。


5.如权利要求3所述的多模态情感识别方法,其特征在于,所述根据所述隐藏层输出的语音信息和所述隐藏层输出的文本信息生成隐藏层特征的...

【专利技术属性】
技术研发人员:刘鹏飞李坤蒙美玲
申请(专利权)人:深圳市声希科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1