多模态社交数据情感分类方法、系统、终端、设备及应用技术方案

技术编号:37255277 阅读:25 留言:0更新日期:2023-04-20 23:31
本发明专利技术属于人工智能、深度学习、情感识别、多模态融合技术领域,公开了多模态社交数据情感分类方法、系统、终端、设备及应用。所述方法包括:基于掩码自编码器MAE的图像特征提取;基于BERT神经网络模型的文本信息提取;MFB融合层融合图像特征信息和文本信息;融合向量通过全连接神经网络层和softmax分类层完成情感分类。本发明专利技术掩码自编码器MAE模型具有enconder

【技术实现步骤摘要】
多模态社交数据情感分类方法、系统、终端、设备及应用


[0001]本专利技术属于人工智能、深度学习、情感识别、多模态融合
,尤其涉及一种多模态社交数据情感分类方法、系统、终端、设备及应用。

技术介绍

[0002]社交网络用户文本数据经常搭配图像数据,只凭单一模态数据愈发难以理解用户表达情感。市场多模态情感分析方法文本特征提取网络和图像特征提取网络提取阶段是独立的,导致两种模态数据在特征提取阶段交互不足,不能充分提取两种模态的数据特征。为改善以上问题,本方法首先采用掩码自编码器MAE(Masked AutoEncoders)充分提取图像特征,自编码器MAE技术因为采用enconder

deconder的结构,具有图像提取特征、特征还原图像的双向功能,因此能够更准确的提取图像特征;文本语义特征提取采用市场上较成熟的BERT神经网络模型,BERT模型被广泛应用于文本分析,在文本相似度计算、文本分类、文本检索、信息抽取等任务上都具有良好、稳定的表现。然后,本方法采用多模态因子分解双线性池化MFB(Multi

modal Factorized Bilinear Pooling)技术,通过特征间的高维扩展、双线差值计算方法完成图像特征和文本特征的融合、对齐。最后,经过全连接神经网络层,分类层输出情感分析结果。
[0003]传统图像编码器不能兼顾提取高维信息和细粒度信息;不能够充分融合图像模态和文本模态数据。
[0004]为解决上述技术问题,现有技术一CN109508375A

一种基于多模态融合的社交情感分类方法

公开利用CNN

RNN混合模型提取文本信息中的情感特征并进行分类处理;基于3DCLS模型的视觉情感分类步骤,利用3DCLS模型提取视觉信息中的时空特征,卷积长短期记忆网络对时空特征序列进行分类处理;基于openSMILE的音频情感分类步骤;和决策融合步骤,将特征提取获得的结果利用决策融合方法进行异质性融合。鉴于此,具体步骤为:
[0005](1)基于CNN

RNN混合模型的文本情感分类步骤
[0006]S11:对输入文本进行预处理,并将其标记为一个单词序列,每个单词都将从word2vec模型中查找得到对应的单词嵌入矩阵,这个字典(word2vec)为每个单词提供了一个300维向量,对于这个词典中没有的单词,使用随机向量。
[0007]S12:将句子向量视为图像,并通过线性过滤器对其进行卷积。
[0008]S13:对卷积后的每个输出序列tj应用一个非线性激活函数f来产生一个特征映射c∈Rn

h+1,其中cj=f(tj),cj表示每一个输出序列tj所对应的特征映射,j=1,

,n

h+1,h是滤波器的长度,f是一个非线性变换函数。
[0009]S14:特征向量可以被馈送到CNN(Convolutional Neural Network)的下一层以进一步卷积,卷积过程与S13一样,或者可以被用于不同自然与预处理任务的输出向量。这里,这个文本特征向量被用作RNN(Recurrent Neural Networks)的输入。
[0010]S15:将隐藏状态的输出看作是RNN的最后一步,使用softmax层对文本进行预测分类,然后将交叉熵损耗从RNN反向传播到CNN以更新CNN

RNN模型的权重。使用随机梯度下降
(SGD)来加速收敛。
[0011](2)基于3DCLS模型的视觉情感分类步骤
[0012]S21:使用C3D从输入视频中提取时空特征,每段视频剪辑为长度为16的序列片段,将序列片段作为输入信息。C3D网络有8个卷积,5个最大池化层和2个完全连接层,然后是一个softmax输出层。
[0013]S22:视频V划分为T个片段,V=(v1,v2,

,vt,

,vT),其中vt是V的第t个片段,K是片段的长度,N表示帧数。接下来,使用3

DCNN网络对每个分割片段进行编码,从而产生图像帧序列X=(x1,x2,

,xT)。
[0014]S23:将隐藏状态的输出看作是LSTM(Recurrent Neural Networks)的最后一步,使用softmax层对视觉信息进行预测分类。
[0015](3)基于openSMILE的音频情感分类步骤
[0016]从视频的每个注释片段中使用开源软件openSMILE自动提取音频特征,音频特征以30Hz的帧率提取,滑动窗口设置为100ms。最后将openSMILE提取的音频特征使用SVM进行情感分类预测。
[0017](4)决策融合
[0018]S31:获得特征向量不是像特征级融合那样连接特征向量,而是为每种模态使用单独的分类器。
[0019]S32:从每个分类器中获得每个情感类别的概率分数。
[0020]S33:使用加权和法则,将每个情感类别的概率相加,然后选择最大的标签。
[0021]现有技术二CN113254741A

基于融合模态内和模态间关系的数据处理方法及系统

公开一种基于融合模态内和模态间关系的数据处理方法,包括:
[0022]获取社交网络指向目标分类的样本数据,并将样本数据划分为训练集、验证集和测试集,获得训练集样本数据、验证集样本数据和测试集样本数据;
[0023]构建预设分类模型,所述预设分类模型包括特征提取网络,与所述特征提取网络相连的目标分类主任务网络和多模态主题信息辅助任务网络,所述特征提取网络包括文本特征提取网络和图片特征提取网络,所述多模态主题信息辅助任务网络包括文本模态网络、图片模态网络和模态间网络,用来获取文本模态网络内主题信息、图片模态网络内主题信息和模态间网络关系主题信息;
[0024]将所述训练集样本数据输入所述预设分类模型并利用预设的损失函数进行训练,使用门控机制融合主任务和辅助任务的输出,得到社交数据分类模型,所述社交数据分类模型用于对输入的待分类数据进行分类。
[0025]现有技术三CN113326868A

一种用于多模态情感分类的决策层融合方法

公开:将多模态情感数据集中的样本分成训练集和测试集;分别构建各种模态的情感分类模型,使用训练集中对应模态的样本分别对各种模态的情感分类模型进行训练;使用训练好的各种模态的情感分类模型分别对测试集中对应模态的样本进行情感分类,统计分类结果,得到各种模态的情感分类混淆矩阵;使用训练好的各种模态的情感分类模型分别对被测样本的对应模态进行情感分类;利用分类混淆矩阵对被测样本的各种模态的情感分类结果进行决策层融合,得到被测样本的情感类别。
[0026]通过上述分析,现有技术存在的问题及缺陷为:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态社交数据情感分类方法,其特征在于,所述多模态社交数据情感分类方法包括:步骤一,基于掩码自编码器MAE的图像特征提取;步骤二,基于BERT神经网络模型的文本信息提取;步骤三,MFB融合层融合和对齐图像特征信息、文本信息;步骤四,融合向量通过全连接神经网络层和softmax分类层完成情感分类。2.根据权利要求1所述的多模态社交数据情感分类方法,其特征在于,在步骤一进行前,需进行:社交网络数据预处理,文本数据去除特殊符号、空白、链接,将社交网络图像模态数据调整到固定大小。3.根据权利要求1所述的多模态社交数据情感分类方法,其特征在于,在步骤一中基于掩码自编码器MAE的图像特征提取具体包括:基于社交网络图像模态数据调整到固定大小,将图像分割成(p,p)大小的图像块,把所有图像块及其位置信息输入到掩码自编码器MAE模型,通过MAE模型的编码器把图像特征映射到向量空间256维。4.根据权利要求1所述的多模态社交数据情感分类方法,其特征在于,在步骤二中基于BERT神经网络模型的文本信息提取具体包括:构建预训练BERT模型,采用基于大规模中文语料训练的预训练模型bert

base

chinese,文本经过特殊符号清洗,输入到BERT模型,通过BERT输出层进行文本层面语义特征提取和表征,获得256维向量。5.根据权利要求1所述的多模态社交数据情感分类方法,其特征在于,在步骤三中MFB融合层融合图像特征信息和文本信息具体包括:通过多模态因子分解双线性池化MFB层,计算公式表示为z=x
T
Wy,其中x表示MAE模型提取的图像特征向量,x
T
表示x的转置向量,W表示向量扩展因子1
×
256向量矩阵,y表示BERT模型输出的文本向量,z表示MFB层的输出向量256维,完成特征高维扩展和向量融合。6.根据权利要求1所述的多模态社交数据情感分类方法,其特征在于,在步骤四中融合向量通过全连接神经网络层和softmax分类层完成情感分类具体...

【专利技术属性】
技术研发人员:郭认飞石珺廖伟李志鹏杨阳朝廖勇沈宜
申请(专利权)人:深圳市网联安瑞网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1