【技术实现步骤摘要】
一种融合多模态数据的方面级情感分析方法
[0001]本专利技术属于自然语言处理
,具体涉及一种方面级情感分析方法。
技术介绍
[0002]近年来,随着信息技术的飞速发展以及个人电脑、手机的全面普及使得互联网上用户生成的数据量爆炸性增长。海量用户活跃在各类应用平台上,对社会热点新闻发表己见,对所消费的产品或者服务发表评价,将自己的个人观点和体验以文本、图片和视频的方式分享给其他人,给后续用户提供参考意见。这些带有丰富数据的观点和评价蕴含着用户所表达的情感信息且十分具有影响力,人们希望通过对从网络中获取的数据进行分析和处理,从而得到有价值的信息。
[0003]以往文档级别和句子级别的情感分析只能分析出整个文档或者整个句子表达的一种情感,但是在真实的场景中,一个热点事件或者一件商品会存在多个评价维度,而一个文档或句子中也可能同时包含多个方面并且用户对这些方面的情感不一致。方面级情感分析(Aspect
‑
Based Sentiment Analysis,ABSA)就是分析用户对于每个实体或者实体属性的 ...
【技术保护点】
【技术特征摘要】
1.一种融合多模态数据的方面级情感分析方法,其特征在于,包括如下步骤:步骤1:文本和图像预处理;进行单词的大小写转换,去停用词并规范输入文本的格式;将图像等比缩放到固定范围,然后进行填充分割成多个大小相等的区域,最后对图像进行归一化处理,保证输入网络模型的图片维度为224*224*3;步骤2:文本和图像特征提取;针对文本数据,先使用词向量进行单词嵌入,然后使用Bi
‑
LSTM提取文本和方面词特征;针对图像数据,对分割后的图像,使用除去全连接层的Resnet50网络提取图像特征,然后使用线性变换将图像特征映射到文本特征空间;步骤3:多模态方面提取和对齐;使用BIO标注体系标注文本,然后使用序列标注方法提取文本中的方面词;使用具有多个计算层的记忆网络进行多模态数据的隐式对齐,找到与提取的文本中的方面词相对应的图像区域;步骤4:基于位置注意力的文本特征,并使用高斯分布建模单词的相对显式位置;针对不同的方面词,使用具有多个计算层的记忆网络在上下文中提取与目标相关的特征进行分析,在每个计算层,引入多头注意力机制监督文本向量生成;步骤5:多模态数据融合;融合方面词图像特征和文本特征,使用融合判别矩阵度量模态数据之间的相关度,使用点积计算在数值和方向上度量相似性,获得图像特征相关的文本部分和与文本最相关的图像特征;步骤6:情感分类;特征融合之后进行拼接,使用softmax分类器输出情感类别的概率分布,并在模型训练时加入标签平滑正则化项提供模型的泛化性,提供模型对新数据的预测能力。2.根据权利要求1所述的一种融合多模态数据的方面级情感分析方法,其特征在于,所述词向量为GloVe词向量或者BERT预训练词向量。3.根据权利要求1所述的一种融合多模态数据的方面级情感分析方法,其特征在于,所述步骤2具体为:步骤2
‑
1:给定文本序列和使用序列标注方法提取到的方面词序列,使用GloVe词向量或者BERT预训练词向量将单词转换成稠密词向量,然后使用双向长短期记忆网络Bi
‑
LSTM提取文本特征:提取文本特征:其中,表示文本的词嵌入向量,表示方面词的词嵌入向量,i和j分别表示进行到第i或者第j个单词,n表示文本长度,m表示方面词长度,表示文本单词向量的反向LSTM,表示方面词单词向量的反向LSTM,得到文本特征向量和方面词特征向量和
步骤2
‑
2:对于分割后的输入图像I={I1,I2,
…
,I
k
},使用除去全连接层的Resnet50网络提取图像特征,m
v
=ResNet(I),将其使用线性变换V=W
v
m
v
变换到文本的特征空间,得到映射到文本特征空间的图像特征信息V={v1,v2,
…
,v
k
},W
v
是可学习参数。4.根据权利要求3所述的一种融合多模态数据的方面级情感分析方法,其特征在于,所述步骤3具体为:步骤3
‑
1:方面提取,提取情感分析对象即方面词;首先使用BIO标注体系标记文本,然后使用序列标注方法提取文本中的方面词,给定文本序列该序列共包含n个单词,提取到一个或多个方面词序列一个序列中包含一个或多个单词;步骤3
‑
2:对方面词和图像进行多模态的隐式方面对齐,使用具有多个计算层的记忆网络量化图像区域和方面词的交互,查找实例子组件之间的对应关系;首先将方面词特征作为输入进行转换,在第一层,执行以下操作:pw
(1)
=conv(σ(conv(h
a
,I),I))其中,pw代表是转换后的特征信息,(1)表示第一层,h
a
为方面词词向量平均值,σ表示可学习参数,conv(.)表示代表卷积核为1的卷积运算;步骤3
‑
3:使用注意力机制监督其与图像特征的交互;在每一层,使用如下方法监督方面词与图像的交互:使用如下方法监督方面词与图像的交互:使用如下方法监督方面词与图像的交互:其中,表示偏置向量,表示可训练权重矩阵,得到方面与图像区域的相关性向量v
(j)
,将其与pw
(j)
求和得到m
(j)
,表示这...
【专利技术属性】
技术研发人员:王柱,张哲,李晓娜,郭斌,於志文,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。