【技术实现步骤摘要】
基于深度学习多模态深尺度情感特征融合的情感识别方法
[0001]本专利技术属于多模态情感识别领域,具体涉及一种基于深度学习多模态深尺度情感特征融合的情感识别方法。
技术介绍
[0002]多模态情感识别(Multimodal Emotion Recognition,MER)是指处理多媒体资源并检测其情感状态,是情感计算中一个非常活跃的研究课题,近年来得到了广泛的研究。随着人工智能(Artificial Intelligent,AI)的迅速发展,在人机交互(Human
‑
Computer Interaction,HCI)领域研究如何提高自动人机应用体验已变得越来越流行。如果在人工智能产品与人的交互过程中,能够准确把握人们当前的情绪状态并获得相应的反应,用户对人工智能产品的体验可能会得到一定程度的改善。因此,情感识别在人机交互中起着至关重要的作用,可以有效地与机器进行交互。考虑到其在商品推荐、舆论监测、人机对话等方面的重要意义。多模态情感识别无疑是一个有价值的研究领域。
[0003]在过去的几十年中,为了 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习多模态深尺度情感特征融合的情感识别方法,其特征在于,所述实现方法包括以下步骤:步骤1:输入wav格式的一段语音及转录文本,利用ME模块分别通过BERT、ECAPA
‑
TDNN、huBERT预训练模型得到它的通用文本特征、说话人特征以及通用语音特征;步骤2:利用DST模块在多层次、深尺度的特征范围对步骤1得到的文本特征和语音特征进行情感相关特征的凝练和提取,得到多模态深尺度情感特征;步骤3:利用MT模块对步骤1得到的多模态信息的进行互相关信息计算,并在话语级特征表示中引入说话人特征得到说话人相关的多模态互相关情态特征;步骤4:利用MFC模块对步骤2多模态深尺度情感特征、步骤3说话人特征相关的多模态互相关情态特征进行注意力加权,计算并输出情感识别结果矩阵;步骤5:利用SoftMax函数计算步骤4得到的结果矩阵的情感识别概率矩阵,输出最大概率置信的情感类别,实现对多模态信息的情感识别。2.根据权利要求1所述一种基于深度学习多模态深尺度情感特征融合的情感识别方法,其特征在于,所述步骤1具体包括以下步骤:步骤1.1:通过录音设备收集人的语音波形信息,获得wav格式的语音文件;步骤1.2:利用ASR自动语音识别系统,完成对步骤1.1语音文件进行文本转录,得到语音的文本转录文件;步骤1.3:利用huBERT、ECAPA
‑
TDNN预训练模型对步骤1.1语音文件进行通用语音特征提取和说话人特征提取;步骤1.4:利用BERT预训练模型对步骤1.2文本转录文件进行通用文本特征提取。步骤1.5:对步骤1.3通用语音特征和说话人特征和步骤1.4通用文本特征进行拼接,生成多模态信息数据集。3.根据权利要求1所述一种基于深度学习多模态深尺度情感特征融合的情感识别方法,其特征在于,所述步骤2具体包括以下步骤:步骤2.1:基于步骤1生成的多模态信息数据集,对语音和文本特征进行共享权重的特征缩放,获得深尺度特征数据集;步骤2.2:对步骤2.1深尺度特征数据集利用Transformer encoder结构进行特征提取,分别构建和捕获文本与语音信息的细粒度与深尺度的情感相关特征;步骤2.3:重复步骤2.1与步骤2.2所述操作,拼接步骤2.2情感相关特征,得到多层次、深尺度情感特征集;步骤2.4:利用统计学方法,对步骤2.3情感特征集计算最大池化和平均池化特征,拼接得到多模态深尺度情感特征。4.根据权利要求3所述一种基于深度学习多模态深尺度情感...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。