一种多模态情感识别方法及装置制造方法及图纸

技术编号:25348110 阅读:24 留言:0更新日期:2020-08-21 17:07
本发明专利技术公开了一种多模态情感识别方法及装置,所述方法包括:将获取的原始音视频信号进行数据切分,得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段,其中,每个子片段均包括多重模态;将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型,获得每个子片段的情感类别;基于每个待检测情感片段中所有子片段的情感类别,分别对每个待检测情感片段进行情感识别,确定各待检测情感片段对应的情感类别;其中,所述多重模态包括:视频片段、音频片段和所属待检测情感片段中由音频片段识别得到的文本。本发明专利技术将多种模态进行融合大大提高了算法的识别准确率。

【技术实现步骤摘要】
一种多模态情感识别方法及装置
本专利技术涉及情感识别领域,具体涉及一种多模态情感识别方法及装置。
技术介绍
情感识别是人工智能、心理学、计算科学等多学科交叉的新兴领域,进入21世纪后,随着人工智能领域的快速发展,情感识别的需求越来越大。情感识别大体上可以分为语音情感识别,人脸情感识别和文本情感识别。传统的情感识别算法常常只着眼于单一模态,例如针对语音情感识别或文本情感识别,识别效果不尽如人意。如今深度学习已经成为热门研究方向,深度学习与普通机器学习相比,主要的特点是深度学习的计算量巨大,在嵌入式系统上,用通用处理器做深度学习太慢,而GPU也存在功耗巨大价格昂贵等缺点,然而采用FPGA实现深度神经网络有快速,低功耗,同时延迟低,连接性强的独特优势。由于语音情感识别、人脸情感识别和文本情感识别的实现基本依赖于神经网络,如何在解决单一模态情感识别算法效果不佳的同时提高运行效果亟需解决。
技术实现思路
对于现有单一模态情感识别算法效果不佳的问题,本专利技术提供的一种多模态情感识别方法,包括:将获取的原始音视频信号进行数据切分,得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段,其中,每个子片段均包括多重模态;将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型,获得每个子片段的情感类别;基于每个待检测情感片段中所有子片段的情感类别,分别对每个待检测情感片段进行情感识别,确定各待检测情感片段对应的情感类别;其中,所述多模态情感识别网络模型基于捕捉各模态之间的非线性关系,形成情感分类的联合判别特征表示后,再进行情感类别识别;所述多重模态包括:视频片段、音频片段和所属待检测情感片段中由音频片段识别得到的文本。优选的,所述将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型,获得每个子片段的情感类别,包括:对子片段的文本进行分词和词嵌入处理,基于词嵌入后的文本获得语义情感特征;基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征;将所述音频情感特征、视频情感特征和语义情感特征分别拉伸为一维向量并拼接,将拼接得到的一维向量输入多模态情感识别网络模型中的深度置信网络得到融合情感特征;将所述融合情感特征输入到分类器,获得所述子片段的情感类别。优选的,所述基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征,包括:从子片段的视频片段中随机选取一帧图像进行人脸检测,裁剪出人脸区域的图像;从子片段的音频片段中提取梅尔倒谱;将裁剪出人脸区域的图像作为多模态情感识别网络模型中CNN的输入,并将全连接层的输出作为视频情感特征;将所述梅尔倒谱作为多模态情感识别网络模型中CRNN网络的输入,并将CRNN网络的隐藏层作为音频情感特征。优选的,所述对子片段的文本进行分词和词嵌入处理,基于词嵌入后的文本获得语义情感特征,包括:对子片段的文本进行分词和词嵌入处理,将词嵌入后的文本作为多模态情感识别网络模型中LSTM网络的输入,并将LSTM网络隐藏层的输出作为语义情感特征。优选的,所述基于每个待检测情感片段中所有子片段的情感类别,分别对每个待检测情感片段进行情感识别,确定各待检测情感片段对应的情感类别,包括:基于每个待检测情感片段中所有子片段的情感类别组成的情感类别列表进行投票,选取出现概率最大的情感类别作为每个待检测情感片段的情绪识别结果;基于训练好的支撑向量机分类模型对每个待检测情感片段的情绪识别结果进行时序分析,确定各待检测情感片段对应的情感类别。优选的,所述基于训练好的支撑向量机分类模型对每个待检测情感片段的情绪识别结果进行时序分析,确定各待检测情感片段对应的情感类别,包括:将待检测情感片段之前的多个待检测情感片段以及其属于各情感类别的概率、所述待检测情感片段属于各情感类别的概率和所述待检测情感片段的情绪识别结果的概率带入训练好的支撑向量机分类模型;基于所述支撑向量机分类模型的输出结果判断多模态情感识别算法识别出得情感类别是否合理,如果合理,则将当前情绪识别结果作为所述待检测情感片段的最终情感识别结果,如不合理,则从所述待检测情感片段属于的其它情感类别中选择概率最大的类别作为所述待检测情感片段对应的情感类别。优选的,所述将获取的原始音视频信号进行数据切分,得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段,包括:将原始音视频信号基于设置的第一时间长度依次进行截取,生成多个待检测情感片段;将每个待检测情感片段基于设置的第二时间长度进行均等切分,获得各待检测情感片段对应的多个子片段。优选的,所述基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征,之前还包括:判断FPGA的设备利用率,当FPGA的设备利用率高于设定的阈值时,采用CPU执行;否则采用FPGA执行。优选的,所述对子片段的文本进行分词和词嵌入处理,基于词嵌入后的文本获得语义情感特征,基于CPU执行。基于同一专利技术构思,本专利技术还提供了一种多模态情感识别装置,包括:控制器和计算器;所述控制器通过封装的接口与外部系统通信连接;所述控制器,用于将获取的原始音视频信号进行数据切分,得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段,其中,每个子片段均包括多重模态;所述计算器,用于将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型,获得每个子片段的情感类别;所述计算器,还用于基于每个待检测情感片段中所有子片段的情感类别,分别对每个待检测情感片段进行情感识别,确定各待检测情感片段对应的情感类别;其中,所述多模态情感识别网络模型基于捕捉各模态之间的非线性关系,形成情感分类的联合判别特征表示后,再进行情感类别识别;所述多重模态包括:视频片段、音频片段和所属待检测情感片段中由音频片段识别得到的文本。优选的,所述控制器包括:任务监听模块、数据交互模块和设备选择模块;所述任务监听模块,用于监听任务请求,当监听到外部系统传来的情绪识别请求时,发送启动信号给数据交互模块;所述数据交互模块,用于接收外部系统传入的原始音视频信号进行解码并将解码后的原始音频信号进行数据切分,得到多个待检测情感片段和每个待检测情感片段对应的多个子片段;所述设备选择模块,用于监测FPGA的设备利用率并进行判断,当FPGA的设备利用率高于设定的阈值时,采用CPU执行情感类别识别任务;否则采用FPGA执行情感类别识别任务。优选的,所述计算器包括:部署在CPU和FPGA上的视频特征提取模块、语音特征提取模块、特征融合分类模块和投票与时序分析模块;所述视频特征提取模块,用于从子片段的视频信号中随机选取一帧图像进行人脸检测,裁剪出人脸区域的图像,同时将裁剪出人脸区域的图像作为多模态情感识别网络模型中CNN的输入,并将全连接层的输出作为视频本文档来自技高网...

【技术保护点】
1.一种多模态情感识别方法,其特征在于,包括:/n将获取的原始音视频信号进行数据切分,得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段,其中,每个子片段均包括多重模态;/n将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型,获得每个子片段的情感类别;/n基于每个待检测情感片段中所有子片段的情感类别,分别对每个待检测情感片段进行情感识别,确定各待检测情感片段对应的情感类别;/n其中,所述多模态情感识别网络模型基于捕捉各模态之间的非线性关系,形成情感分类的联合判别特征表示后,再进行情感类别识别;所述多重模态包括:视频片段、音频片段和所属待检测情感片段中由音频片段识别得到的文本。/n

【技术特征摘要】
1.一种多模态情感识别方法,其特征在于,包括:
将获取的原始音视频信号进行数据切分,得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段,其中,每个子片段均包括多重模态;
将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型,获得每个子片段的情感类别;
基于每个待检测情感片段中所有子片段的情感类别,分别对每个待检测情感片段进行情感识别,确定各待检测情感片段对应的情感类别;
其中,所述多模态情感识别网络模型基于捕捉各模态之间的非线性关系,形成情感分类的联合判别特征表示后,再进行情感类别识别;所述多重模态包括:视频片段、音频片段和所属待检测情感片段中由音频片段识别得到的文本。


2.如权利要求1所述的多模态情感识别方法,其特征在于,所述将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型,获得每个子片段的情感类别,包括:
对子片段的文本进行分词和词嵌入处理,基于词嵌入后的文本获得语义情感特征;
基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征;
将所述音频情感特征、视频情感特征和语义情感特征分别拉伸为一维向量并拼接,将拼接得到的一维向量输入多模态情感识别网络模型中的深度置信网络得到融合情感特征;
将所述融合情感特征输入到分类器,获得所述子片段的情感类别。


3.如权利要求2所述的多模态情感识别方法,其特征在于,所述基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征,包括:
从子片段的视频片段中随机选取一帧图像进行人脸检测,裁剪出人脸区域的图像;
从子片段的音频片段中提取梅尔倒谱;
将裁剪出人脸区域的图像作为多模态情感识别网络模型中CNN的输入,并将全连接层的输出作为视频情感特征;
将所述梅尔倒谱作为多模态情感识别网络模型中CRNN网络的输入,并将CRNN网络的隐藏层作为音频情感特征。


4.如权利要求2所述的多模态情感识别方法,其特征在于,所述对子片段的文本进行分词和词嵌入处理,基于词嵌入后的文本获得语义情感特征,包括:
对子片段的文本进行分词和词嵌入处理,将词嵌入后的文本作为多模态情感识别网络模型中LSTM网络的输入,并将LSTM网络隐藏层的输出作为语义情感特征。


5.如权利要求1所述的多模态情感识别方法,其特征在于,所述基于每个待检测情感片段中所有子片段的情感类别,分别对每个待检测情感片段进行情感识别,确定各待检测情感片段对应的情感类别,包括:
基于每个待检测情感片段中所有子片段的情感类别组成的情感类别列表进行投票,选取出现概率最大的情感类别作为每个待检测情感片段的情绪识别结果;
基于训练好的支撑向量机分类模型对每个待检测情感片段的情绪识别结果进行时序分析,确定各待检测情感片段对应的情感类别。


6.如权利要求5所述的多模态情感识别方法,其特征在于,所述基于训练好的支撑向量机分类模型对每个待检测情感片段的情绪识别结果进行时序分析,确定各待检测情感片段对应的情感类别,包括:
将待检测情感片段之前的多个待检测情感片段以及其属于各情感类别的概率、所述待检测情感片段属于各情感类别的概率和所述待检测情感片段的情绪识别结果的概率带入训练好的支撑向量机分类模型;
基于所述支撑向量机分类模型的输出结果判断多模态情感识别算法识别出得情感类别是否合理,如果合理,则将当前情绪识别结果作为所述待检测情感片段的最终情感识别结果,如不合理,则从所述待检测情感片段属于的其它情感类别中选择概率最大的类别作为所述待检测情感片段对应的情感类别。


7.如权利要求1所述的多模态情感识别方法,其特征在于,所述将获取的原始音视频信号进行数据切分,得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段,包括:
将原始音视频信号基于设置的第一时间长度依次进行截取,生成多个待检测情感片段;
将每个待检测情感片段基于设置的第二时间长度进行均等切分,获得各待检测情感片段对应的多个子片段。


8.如权利要求2所述的多模态情感识别方法,其特征在于,所述基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征,...

【专利技术属性】
技术研发人员:潘明明田世明李德智龚桃荣陈宋宋宫飞翔石坤董明宇
申请(专利权)人:中国电力科学研究院有限公司国家电网有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1