本发明专利技术公开了一种基于单模态和多模态联合训练的情感分析方法及系统,涉及多模态情感分析技术领域。为了兼顾多模态的交互和独立,本发明专利技术提出了一种名为JTUM的融合策略,该策略包含了三个单模态任务和多模态任务。在单模态任务中,使用单模态标签生成模块来获得独立的单模态监督,学习单模态表示。在多模态任务中,使用crossmodal transformer来学习多模态序列之间的交互。最后,使用自注意力机制收集时间信息优化预测结果。本发明专利技术的方法既关注了单个模态的特性,又关注了跨模态间的相互作用,提高了预测模型的鲁棒性能够获得更为准确的情感分析结果,为平台智能管理和兴趣推荐等大数据处理技术的应用提供了重要的技术辅助。数据处理技术的应用提供了重要的技术辅助。数据处理技术的应用提供了重要的技术辅助。
【技术实现步骤摘要】
一种基于单模态和多模态联合训练的情感分析方法及系统
[0001]本专利技术涉及多模态情感分析
,尤其涉及一种基于单模态和多模态联合训练的情感分析方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
[0003]随着智能产品的丰富和社交媒体的迅速发展,人类的表达方式不再局限于文字形式,越来越多的人开始利用视觉和音频来表达情感,多模态数据呈现出了爆发式的增长。多模态情感分析旨在通过文本、视觉和音频等多模态信号来预测多模态数据中表达的情感。多模态情感分析在风控、舆情监督、社交平台、电商平台评价和兴趣推荐等领域都有重要的应用。因此,如何有效的对多个模态进行融合是多模态情感分析的关键。
[0004]在以往的研究中,研究者从多个角度提出了一些融合方法。基于拼接串联或加权等简单操作的融合方法,基于注意力机制的融合方法,基于张量的融合方法。然而,这些方法都缺少对于多模态交互信息和单模态独立信息的共同关注。针对这个问题,Hazarika等人设计了包括模态不变和模态特定表示两个子空间的框架,前者用来学习多个模态的共性,后者用来学习每个模态的独有特征,但子空间差异并不能充分表示单个模态间的差异。Yu等人提出了单模态标签生成模块来获得单峰模态监督,来学习单个模态的独有信息,但对于多模态融合,只使用了直接的拼接技术,没有充分考虑到多模态之间的交互。
[0005]因此,如何提供一种考虑模态间的差异性以及跨模态间相互作用的多模态融合方法,成为现有多模态情感分析过程中亟待解决的问题之一。
技术实现思路
[0006]针对现有技术存在的不足,本专利技术的目的是提供一种基于单模态和多模态联合训练的情感分析方法及系统,为了兼顾多模态的交互和独立,提出了一种包含了三个单模态任务和多模态任务融合策略,使得模型既关注了单个模态的特性,又关注了跨模态间的相互作用,实现了更为精确的情感分析,为平台智能管理和兴趣推荐等大数据处理技术的应用提供了重要的技术辅助。
[0007]为了实现上述目的,本专利技术是通过如下的技术方案来实现:
[0008]本专利技术第一方面提供了一种基于单模态和多模态联合训练的情感分析方法,包括以下步骤:
[0009]获取视频片段,提取文本、音频和视觉三种模态;对三种模态分别进行编码得到单独的特征向量表示;
[0010]针对模态的独立性和交互性分别建立单模态任务和多模态任务;
[0011]将三种模态的特征向量输入单模态任务获得每个模态的单模态标签;
[0012]将三种模态的特征向量输入多模态任务进行两两模态交互,得到三种跨模态交互
后的模态表示;
[0013]利用三种跨模态交互后的模态表示结合自注意力机制输出多模态任务的预测结果;
[0014]在单模态标签和多模态标签的监督下联合训练单模态任务和多模态任务,将训练后多模态任务输出的预测结果作为情感分析的最终结果。
[0015]进一步的,对三种模态分别进行编码得到单独的特征向量表示的具体步骤为:
[0016]对于文本模态,使用12层的BERT,并将最后一层输出的头部词向量作为文本模态特征向量表示;
[0017]对于视觉和音频模态,先利用特征提取器进行特征抽取,再使用堆叠的LSTM对视觉和音频模态分别进行编码,最后,把最后一层的首个词向量作为整个序列的表示,得到视觉模态特征向量表示和音频模态特征向量表示。
[0018]进一步的,单模态任务和多模态任务共享编码后的特征向量表示。
[0019]进一步的,将三种模态的特征向量输入单模态任务获得每个模态的单模态标签的具体步骤为:
[0020]将三种模态的特征向量输入到全连接层;
[0021]通过线性回归得到单模态预测结果和单模态表示;
[0022]使用ULGM根据单模态预测结果得到单模态标签。
[0023]更进一步的,使用ULGM根据单模态预测结果得到单模态标签的具体步骤为:
[0024]分别计算三个单模态表示和一个融合模态表示正负样本的中心点;
[0025]计算出每个模态表示到正负样本中心点的相对距离;
[0026]根据相对距离得到单模态标签与多模态标签的比值关系;
[0027]根据单模态标签与多模态标签的比值关系计算出偏移量,从而得到单模态标签。
[0028]进一步的,将三种模态的特征向量输入多模态任务进行两两模态交互,得到三种跨模态交互后的模态表示的具体步骤为:
[0029]将三种模态的特征向量通过全连接层对特征进行转换;
[0030]将转换后的特征向量表示输入crossmodal transformer中获取跨模态之间的交互信息;
[0031]串联crossmodal transformers的输出,得到三种跨模态交互后的模态表示。
[0032]进一步的,利用三种跨模态交互后的模态表示结合自注意力机制输出多模态任务的预测结果的具体步骤为:
[0033]将三种跨模态交互后的模态表示采用自注意力机制融合成一个联合向量表示;
[0034]通过全连接联合向量表示得到多模态任务的预测结果。
[0035]更进一步的,将三种跨模态交互后的模态表示采用自注意力机制融合成一个联合向量表示的具体步骤为:
[0036]采用自注意力机制收集每种模态序列的时间信息;
[0037]提取每个序列中的最后一个元素并进行连接;
[0038]将连接后的结果投影到更低维度的空间中,得到多模态融合表示。
[0039]进一步的,在单模态标签和多模态标签的监督下联合训练单模态任务和多模态任务的具体步骤为:
[0040]将损失作为优化目标,设置损失函数;
[0041]将单模态标签和多模态标签之间的差异作为损失函数的权重;
[0042]根据多模态任务的预测结果、多模态标签、单模态预测结果和单模态标签求解损失函数,使损失函数接近期望值,从而完成联合训练过程。
[0043]本专利技术第二方面提供了一种基于单模态和多模态联合训练的情感分析系统,包括:
[0044]模态编码模块,被配置为获取视频片段,提取文本、音频和视觉三种模态;对三种模态分别进行编码得到单独的特征向量表示;
[0045]任务划分模块,被配置为针对模态的独立性和交互性分别建立单模态任务和多模态任务;
[0046]单模态任务模块,被配置为将三种模态的特征向量输入单模态任务获得每个模态的单模态标签;
[0047]多模态任务模块,被配置为将三种模态的特征向量输入多模态任务进行两两模态交互,得到三种跨模态交互后的模态表示;
[0048]预测模块,被配置为利用三种跨模态交互后的模态表示结合自注意力机制输出多模态任务的预测结果;
[0049]联合训练模块,被配置为在单模态标签和多模态标签的监督下联合训练单模态任务和多模态任务,将训练后多模态任务输出的预测结果作本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于单模态和多模态联合训练的情感分析方法,其特征在于,包括以下步骤:获取视频片段,提取文本、音频和视觉三种模态;对三种模态分别进行编码得到单独的特征向量表示;针对模态的独立性和交互性分别建立单模态任务和多模态任务;将三种模态的特征向量输入单模态任务获得每个模态的单模态标签;将三种模态的特征向量输入多模态任务进行两两模态交互,得到三种跨模态交互后的模态表示;利用三种跨模态交互后的模态表示结合自注意力机制输出多模态任务的预测结果;在单模态标签和多模态标签的监督下联合训练单模态任务和多模态任务,将训练后多模态任务输出的预测结果作为情感分析的最终结果。2.如权利要求1所述的基于单模态和多模态联合训练的情感分析方法,其特征在于,对三种模态分别进行编码得到单独的特征向量表示的具体步骤为:对于文本模态,使用12层的BERT,并将最后一层输出的头部词向量作为文本模态特征向量表示;对于视觉和音频模态,先利用特征提取器进行特征抽取,再使用堆叠的LSTM对视觉和音频模态分别进行编码,最后,把最后一层的首个词向量作为整个序列的表示,得到视觉模态特征向量表示和音频模态特征向量表示。3.如权利要求1所述的基于单模态和多模态联合训练的情感分析方法,其特征在于,单模态任务和多模态任务共享编码后的特征向量表示。4.如权利要求1所述的基于单模态和多模态联合训练的情感分析方法,其特征在于,将三种模态的特征向量输入单模态任务获得每个模态的单模态标签的具体步骤为:将三种模态的特征向量输入到全连接层;通过线性回归得到单模态预测结果和单模态表示;使用ULGM根据单模态预测结果得到单模态标签。5.如权利要求4所述的基于单模态和多模态联合训练的情感分析方法,其特征在于,使用ULGM根据单模态预测结果得到单模态标签的具体步骤为:分别计算三个单模态表示和一个融合模态表示正负样本的中心点;计算出每个模态表示到正负样本中心点的相对距离;根据相对距离得到单模态标签与多模态标签的比值关系;根据单模态标签与多模态标签的比值关系计算出偏移量,从而得到单模态标签。6.如权利要求1所述的基于单模态和多模态联合训练的情感分析方法,其特征在于,将三种模态的特征向量输入多模态任务进行两两模态交互,得到三种跨模态交互后的模态表示的...
【专利技术属性】
技术研发人员:朱振方,李萌,李克峰,亓江涛,裴洪丽,张广渊,王朋,
申请(专利权)人:山东交通学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。