模型训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37506844 阅读:19 留言:0更新日期:2023-05-07 09:44
本申请提供了一种模型训练方法、装置、电子设备及存储介质。包括:获取多模态模型训练样本;将多模态模型训练样本输入至待训练多模态情感分析模型;调用向量表征网络层对文本模态特征、语音模态特征和视频模态特征进行处理,得到文本表征向量、语音表征向量和视频表征向量;调用多模态融合网络层对文本表征向量、语音表征向量和视频表征向量进行多模态融合处理,得到多模态融合特征向量;调用情感分类网络层对多模态融合特征向量进行处理,得到多模态模型训练样本隶属情感类别的分类概率;基于分类概率,计算得到待训练多模态情感分析模型的损失值;在损失值处于预设范围内的情况下,将训练后的待训练多模态情感分析模型作为多模态情感分析模型。多模态情感分析模型。多模态情感分析模型。

【技术实现步骤摘要】
模型训练方法、装置、电子设备及存储介质


[0001]本申请的实施例涉及模型训练
,尤其涉及一种模型训练方法、装置、电子设备及存储介质。

技术介绍

[0002]情感分析是情感计算领域的主要角色,该任务主要是利用计算机来检测、分析和评估人类对不同事件、问题等兴趣产物的认知,它的应用场景在我们的生活中可以说是无处不在,在商品零售、社会舆论、金融交易等领域均能够发挥巨大的作用。
[0003]传统的情感分析大多数只是基于单一模态特征来进行推理,然而在我们周围的世界中,往往包含着多种多样的模态信息,比如,在身处于一个对话场景中时,除了面对面看到对方的面部表情外,还能够听见对方说话时语气的变化,理解对方所说的语言内容等等。因此,单一模态特征进行情感分析的方式存在情感分析识别率低的问题。

技术实现思路

[0004]本申请的实施例提供一种模型训练方法、装置、电子设备及存储介质,用以生成多模态情感分析网络模型,以利用多模态信息(语音、视频和文本)可以更加准确地捕获所需要表达的情感并获得更好的情感类别识别效果。
[0005]根据本申请的实施例的第一方面,提供了一种模型训练方法,包括:获取多模态模型训练样本,所述多模态模型训练样本包括:文本模态特征、语音模态特征和视频模态特征;将所述多模态模型训练样本输入至待训练多模态情感分析模型;所述待训练多模态情感分析模型包括:向量表征网络层、多模态融合网络层和情感分类网络层;调用所述向量表征网络层对所述文本模态特征、语音模态特征和视频模态特征进行处理,得到所述文本模态特征的文本表征向量、所述语音模态特征的语音表征向量和所述视频模态特征的视频表征向量;调用所述多模态融合网络层对所述文本表征向量、所述语音表征向量和所述视频表征向量进行多模态融合处理,得到多模态融合特征向量;调用所述情感分类网络层对所述多模态融合特征向量进行处理,得到所述多模态模型训练样本隶属情感类别的分类概率;基于所述分类概率,计算得到所述待训练多模态情感分析模型的损失值;在所述损失值处于预设范围内的情况下,将训练后的待训练多模态情感分析模型作为最终的多模态情感分析模型。
[0006]可选地,所述向量表征网络层包括:第一双向LSTM网络、第二双向LSTM网络和GCN语音网络,所述调用所述向量表征网络层对所述文本模态特征、语音模态特征和视频模态特征进行处理,得到所述文本模态特征的文本表征向量、所述语音模态特征的语音表征向量
和所述视频模态特征的视频表征向量,包括:调用所述第一双向LSTM网络对所述文本模态特征进行处理,得到所述文本模态特征的所述文本表征向量;调用所述第二双向LSTM网络对所述视频模态特征进行处理,得到所述视频模态特征的所述视频表征向量;调用所述GCN语音网络对所述语音模态特征进行处理的,得到所述语音模态特征的所述语音表征向量。
[0007]可选地,所述第一双向LSTM网络包括:第一编码层和第一注意力机制层,所述调用所述第一双向LSTM网络对所述文本模态特征进行处理,得到所述文本模态特征的所述文本表征向量,包括:调用所述第一编码层对所述文本模态特征中的每句会话文本进行编码处理,生成每句会话文本的文本编码特征向量;调用所述第一注意力机制层对所述文本编码特征向量进行会话交互学习,得到文本注意力特征向量;对所述文本注意力特征向量进行拼接处理,生成所述文本表征向量。
[0008]可选地,所述第二双向LSTM网络包括:第二编码层和第二注意力机制层,所述调用所述第二双向LSTM网络对所述视频模态特征进行处理,得到所述视频模态特征的所述视频表征向量,包括:对所述视频模态特征中的音频进行文本转换处理,得到所述视频模态特征对应的转换文本特征;调用所述第二编码层对所述转换文本特征进行编码处理,得到转换文本特征向量;调用所述第二注意力机制层对所述转换文本特征向量进行会话交互学习,得到转换文本注意力特征向量;对所述转换文本注意力特征向量进行拼接处理,生成所述视频表征向量。
[0009]可选地,所述GCN语音网络包括:拓扑图构建层、图卷积层和注意力机制层,所述调用所述GCN语音网络对所述语音模态特征进行处理的,得到所述语音模态特征的所述语音表征向量,包括:调用所述拓扑图构建层对所述语音模态特征进行处理,构建拓扑图,并根据所述拓扑图获取节点特征向量;调用所述图卷积层对所述节点特征向量进行转换处理,得到与所述语音模态特征对应的用户关联的上下文特征向量;调用所述注意力机制层对所述节点特征向量和所述上下文特征向量拼接得到的向量进行注意力学习,得到语音注意力特征向量;对所述语音注意力特征向量进行拼接处理,得到所述语音表征向量。
[0010]可选地,所述多模态融合网络层包括:基于联合注意力的跨模态特征融合层和生成对抗算法,所述调用所述多模态融合网络层对所述文本表征向量、所述语音表征向量和所述视频表征向量进行多模态融合处理,得到多模态融合特征向量,包括:
调用所述多模态融合网络层对目标模态对应的表征向量与其它两种辅助模态对应的表征向量进行一一交互计算,得到三种模态的融合特征向量;调用所述生成对抗算法计算所述目标模态与所述辅助模态之间的相关性差异,得到所述多模态融合特征向量。
[0011]可选地,所述调用所述情感分类网络层对所述多模态融合特征向量进行处理,得到所述多模态模型训练样本隶属情感类别的分类概率,包括:对所述多模态融合特征向量进行拼接处理,得到拼接特征向量;对所述拼接特征向量进行处理,得到所述多模态模型训练样本在多个情感类别的概率分布;根据所述概率分布,从所述多个情感类别中筛选出概率值最大的情感类别作为预测情感类别,并将该概率值最大的情感类别对应的概率值作为所述分类概率。
[0012]可选地,在所述将训练后的待训练多模态情感分析模型作为最终的多模态情感分析模型之后,还包括:获取待分类的多模态数据;所述多模态数据包括:语音数据、文本数据和视频数据;将所述多模态数据输入至所述多模态情感分析模型;调用所述多模态情感分析模型对所述多模态数据进行处理,得到所述多模态数据在多个情感类别下的概率分布;根据所述概率分布,确定所述多模态数据对应的目标情感类别。
[0013]根据本申请的实施例的第二方面,提供了一种模型训练装置,包括:模型训练样本获取模块,用于获取多模态模型训练样本,所述多模态模型训练样本包括:文本模态特征、语音模态特征和视频模态特征;模型训练样本输入模块,用于将所述多模态模型训练样本输入至待训练多模态情感分析模型;所述待训练多模态情感分析模型包括:向量表征网络层、多模态融合网络层和情感分类网络层;多模态表征向量获取模块,用于调用所述向量表征网络层对所述文本模态特征、语音模态特征和视频模态特征进行处理,得到所述文本模态特征的文本表征向量、所述语音模态特征的语音表征向量和所述视频模态特征的视频表征向量;多模态融合向量获取模块,用于调用所述多模态融合网络层对所述文本表征向量、所述语音表征向量和所述视频表征向量进行多模态融合处理,得到多模态融合特征向量;分类概率获取模块,用于调用所述情本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,其特征在于,包括:获取多模态模型训练样本,所述多模态模型训练样本包括:文本模态特征、语音模态特征和视频模态特征;将所述多模态模型训练样本输入至待训练多模态情感分析模型;所述待训练多模态情感分析模型包括:向量表征网络层、多模态融合网络层和情感分类网络层;调用所述向量表征网络层对所述文本模态特征、语音模态特征和视频模态特征进行处理,得到所述文本模态特征的文本表征向量、所述语音模态特征的语音表征向量和所述视频模态特征的视频表征向量;调用所述多模态融合网络层对所述文本表征向量、所述语音表征向量和所述视频表征向量进行多模态融合处理,得到多模态融合特征向量;调用所述情感分类网络层对所述多模态融合特征向量进行处理,得到所述多模态模型训练样本隶属情感类别的分类概率;基于所述分类概率,计算得到所述待训练多模态情感分析模型的损失值;在所述损失值处于预设范围内的情况下,将训练后的待训练多模态情感分析模型作为最终的多模态情感分析模型。2.根据权利要求1所述的方法,其特征在于,所述向量表征网络层包括:第一双向LSTM网络、第二双向LSTM网络和GCN语音网络,所述调用所述向量表征网络层对所述文本模态特征、语音模态特征和视频模态特征进行处理,得到所述文本模态特征的文本表征向量、所述语音模态特征的语音表征向量和所述视频模态特征的视频表征向量,包括:调用所述第一双向LSTM网络对所述文本模态特征进行处理,得到所述文本模态特征的所述文本表征向量;调用所述第二双向LSTM网络对所述视频模态特征进行处理,得到所述视频模态特征的所述视频表征向量;调用所述GCN语音网络对所述语音模态特征进行处理的,得到所述语音模态特征的所述语音表征向量。3.根据权利要求2所述的方法,其特征在于,所述第一双向LSTM网络包括:第一编码层和第一注意力机制层,所述调用所述第一双向LSTM网络对所述文本模态特征进行处理,得到所述文本模态特征的所述文本表征向量,包括:调用所述第一编码层对所述文本模态特征中的每句会话文本进行编码处理,生成每句会话文本的文本编码特征向量;调用所述第一注意力机制层对所述文本编码特征向量进行会话交互学习,得到文本注意力特征向量;对所述文本注意力特征向量进行拼接处理,生成所述文本表征向量。4.根据权利要求2所述的方法,其特征在于,所述第二双向LSTM网络包括:第二编码层和第二注意力机制层,所述调用所述第二双向LSTM网络对所述视频模态特征进行处理,得到所述视频模态特征的所述视频表征向量,包括:
对所述视频模态特征中的音频进行文本转换处理,得到所述视频模态特征对应的转换文本特征;调用所述第二编码层对所述转换文本特征进行编码处理,得到转换文本特征向量;调用所述第二注意力机制层对所述转换文本特征向量进行会话交互学习,得到转换文本注意力特征向量;对所述转换文本注意力特征向量进行拼接处理,生成所述视频表征向量。5.根据权利要求2所述的方法,其特征在于,所述GCN语音网络包括:拓扑图构建层、图卷积层和注意力机制层,所述调用所述GCN语音网络对所述语音模态特征进行处理的,得到所述语音模态特征的所述语音表征向量,包括:调用所述拓扑图构建层对所述语音模态特征进行处理,构建拓扑图,并根据所述拓扑图获取节点特征向量;调用所述图卷积层对所述节点特征向量进行转换处理,得到与所述语音模态特征对应的用户关联的上下文特征向量;调用所述注意力机制层对所述节点特征向量和所述上下文特征向量拼接得到的向量进行注意力学习,得到语音注意力特征向量;对所述语音注意力特征向量进行拼接处理,得到所述语音表征向量。6.根据权利要求1所述的方法,其特征在于,所述多模态融合网络层包括:基于联合注意力的跨模态特征融合层和生成对抗算法,所述调用所述多模态融合网络层对所述文本表征向量、所述语音表征向量和所述视频表征向量进行多模态融合处理,得到多模态融合特征向量,包括:调用所述多模态融合网络层对目标模态对应的表征向量与其它两种辅助模态对应的表征向量进行一一交互计算,得到三种模态的融合特征向量;调用所述生成对抗算法计算所述目标模态与所述辅助模态之间的相关性差异,得到所述多模态融合特征向量。7.根据权利要求1所述的方法,其特征在于,所述调用所述情感分类网络层对所述多模态融合特征向量进行处理,得到所述多模态模型训练样本隶属情感类别的分类概率,包括:对所述多模态融合特征向量进行拼接处理,得到拼接特征向量;对所述拼接特征向量进行处理,得到所述多模态模型训练样本在多个情感类别的概率分布;根据所述概率分布,从所述多个情感类别中筛选出概率值最大的情感类别作为预测情感类别,并将该概率值最大的情感类别对应的概率值作为所述分类概率。8.根据权利要求1所述的方...

【专利技术属性】
技术研发人员:陈晨吴晓东赵昕胡永凯黄靖李文彬胡佳婷
申请(专利权)人:天翼云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1