情绪识别模型的训练方法、情绪识别方法、设备及介质技术

技术编号:33807308 阅读:29 留言:0更新日期:2022-06-16 10:15
本发明专利技术公开了一种情绪识别模型的训练方法、情绪识别方法、设备及介质。该方法基于F

【技术实现步骤摘要】
情绪识别模型的训练方法、情绪识别方法、设备及介质


[0001]本专利技术涉及图像处理领域,特别涉及一种情绪识别模型的训练方法、情绪识别方法、设备及介质。

技术介绍

[0002]现有情绪识别技术大多依赖预训练的卷积神经模型来提取视觉特征,这样模型的结构大都固定,并且对新数据集的适应性较差。
[0003]此外,目前情绪识别技术大部分依赖性图像/视频中的单一的人脸信息,大量其他信息被忽略。
[0004]由此,一方面采集的数据没有得到充分利用,另一方面训练出来的模型对情绪识别的准确度有限。

技术实现思路

[0005]本专利技术要解决的技术问题是为了克服现有技术中情绪识别技术所使用的模型结构较为固定,并且训练的过程中采集的数据所利用的信息较为单一,导致采集的数据没有得到充分利用,另一方面训练出来的模型对情绪识别的准确度有限缺陷,提供一种基于新的模型结构,并且利用多种信息对新的模型结构中不同模块进行训练,从而可以有效提高情绪识别的准确性的情绪识别模型的训练方法、情绪识别方法、设备及介质。
[0006]本专利技术是通过下述技术方案来解决上述技术问题:
[0007]本专利技术提供了一种情绪识别模型的训练方法,其特征在于,所述情绪识别模型的训练方法基于F

Transformer结构实现,所述F

Transformer结构包括内容编码器、两个特征编码结构及标签解码器,所述两个特征编码结构分别与所述内容编码器串联;两个图像数据分别从所述两个特征编码结构输入,所述两个特征编码结构用于分别对所述两个图像数据进行特征提取以得到两个特征编码信息,所述内容编码器用于对所述两个特征编码信息进行融合处理以得到融合特征信息;所述标签解码器用于将所述融合特征信息作为输入并将对应的预设情绪标签作为输出进行模型训练以得到情绪识别模型。
[0008]所述训练方法包括以下步骤:
[0009]获取目标对象的训练集,所述训练集包括若干图像样本;
[0010]对于每一图像样本,获取第一图像信息及第二图像信息;
[0011]将所述第一图像信息及所述第二图像信息分别作为所述的F

Transformer结构的两个特征编码结构的输入,所述图像样本对应的预设情绪信息作为输出进行模型训练以获取情绪识别模型。
[0012]较佳地,所述F

Transformer结构还包括与所述内容编码器串联的标签解码器,所述标签解码器用于对所述融合特征信息及所述预设情绪信息所对应的语义信息进行解码处理。
[0013]较佳地,所述特征编码结构包括串联的W

MSA编码器及SW

MSA编码器。
[0014]较佳地,所述第一图像信息为人物信息;
[0015]所述获取第一图像信息的步骤包括以下步骤:
[0016]将所述图像样本输入至人物检测模型中以获取所述人物信息;和/或,
[0017]所述第二图像信息为场景信息。
[0018]较佳地,所述情绪识别模型的训练方法基于N个所述F

Transformer结构实现,n=1,2

N,n表示第n个F

Transformer结构,所述将所述第一图像信息及所述第二图像信息分别作为所述的F

Transformer结构的两个特征编码结构的输入,所述图像样本对应的预设情绪标签作为输出的步骤具体包括以下步骤:
[0019]当n=1时:将所述第一图像信息及所述第二图像信息分别作为所述F

Transformer结构的两个特征编码结构的输入,所述图像样本对应的预设情绪标签作为输出;
[0020]当n>1时,将第n

1个F

Transformer结构获取的两个特征编码信息分别作为第n个F

Transformer结构的两个特征编码结构输入,所述图像样本对应的预设情绪标签作为输出。
[0021]较佳地,所述进行模型训练的步骤后还包括:
[0022]对于每一个F

Transformer结构,根据对应的损失函数计算损失值;
[0023]根据所有计算出来的损失值获取最终损失值;
[0024]当所述最终损失值达到预设条件时,获取到情绪识别模型。
[0025]本专利技术还提供了一种情绪识别方法,所述情绪识别方法包括以下步骤:
[0026]获取待识别图像;
[0027]将所述待识别图像输入至情绪识别模型中以获取情绪预测结果,所述情绪识别模型为根据如上所述的情绪识别方法所得到的模型。
[0028]较佳地,所述情绪识别模型包括N个F

Transformer结构,所述将所述待识别图像输入至情绪识别模型中以获取情绪预测结果的步骤包括:
[0029]根据每一个F

Transformer的预测结果计算得到情绪预测结果;或,
[0030]将最后一个F

Transformer的预测结果作为情绪预测结果。
[0031]本专利技术还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的情绪识别模型的训练方法或如上所述的情绪识别方法。
[0032]本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的情绪识别模型的训练方法或如上所述的情绪识别方法。
[0033]本专利技术的积极进步效果在于:本专利技术摆脱了对传统的卷积神经网络结构的依赖,利用自行构建的F

Transformer结构可以对采集的图像样本中的不同的信息进行深度融合利用,提高了模型训练的效果。
[0034]本专利技术中,利用多个F

Transformer结构,不仅将容易被忽略的标签语义表示信息利用起来,也将多种信息进行了深度融合,还摆脱了对预训练的卷积神经网络结构的依赖,可以直接输入原始图像端到端地训练模型,从而提升了情绪识别模型训练效率的同时,也提高了训练出来的情绪识别模型的检测效果。
附图说明
[0035]图1为本专利技术实施例1中W

MSA编码器的编码流程图。
[0036]图2为本专利技术实施例1中SW

MSA编码器的编码流程图。
[0037]图3为本专利技术实施例1中内容编码器的编码流程图。
[0038]图4为本专利技术实施例1中标签解码器的编码流程图。
[0039]图5为本专利技术实施例1中基础F

Transformer结构的示意图。
[0040]图6为本专利技术实施例1中情绪识别模型的训练方法的流程图。
[0041]图7为本专利技术实施例1中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种情绪识别模型的训练方法,其特征在于,所述情绪识别模型的训练方法基于F

Transformer结构实现,所述F

Transformer结构包括内容编码器、两个特征编码结构及标签解码器,所述两个特征编码结构分别与所述内容编码器串联;两个图像数据分别从所述两个特征编码结构输入,所述两个特征编码结构用于分别对所述两个图像数据进行特征提取以得到两个特征编码信息,所述内容编码器用于对所述两个特征编码信息进行融合处理以得到融合特征信息;所述标签解码器用于将所述融合特征信息作为输入并将对应的预设情绪标签作为输出进行模型训练以得到情绪识别模型;所述训练方法包括以下步骤:获取目标对象的训练集,所述训练集包括若干图像样本;对于每一图像样本,获取第一图像信息及第二图像信息;将所述第一图像信息及所述第二图像信息分别作为所述的F

Transformer结构的两个特征编码结构的输入,所述图像样本对应的预设情绪信息作为输出进行模型训练以获取情绪识别模型。2.如权利要求1所述的情绪识别模型的训练方法,其特征在于,所述F

Transformer结构还包括与所述内容编码器串联的标签解码器,所述标签解码器用于对所述融合特征信息及所述预设情绪信息所对应的语义信息进行解码处理。3.如权利要求1所述的情绪识别模型的训练方法,其特征在于,所述特征编码结构包括串联的W

MSA编码器及SW

MSA编码器。4.如权利要求1所述的情绪识别模型的训练方法,其特征在于,所述第一图像信息为人物信息;所述获取第一图像信息的步骤包括以下步骤:将所述图像样本输入至人物检测模型中以获取所述人物信息;和/或,所述第二图像信息为场景信息。5.如权利要求4所述的情绪识别模型的训练方法,其特征在于,所述情绪识别模型的训练方法基于N个所述F

Transformer结构实现,n=1,2

N,n表示第n个F

Transformer结构,所述将所述第一图像信息及所述第二图像信息分别作为所述的F

【专利技术属性】
技术研发人员:王晓梅
申请(专利权)人:华院计算技术上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1