一种基于区域感知对齐网络的多模态评价对象抽取方法技术

技术编号:34016090 阅读:12 留言:0更新日期:2022-07-02 15:47
本发明专利技术公开了一种基于区域感知对齐网络的多模态评价对象抽取方法,该方法针对社交媒体语料特点构建了具有编码层、共同注意力层、解码层的多模态评价对象抽取模型,在模型构建过程中基于社交媒体语料特点设置了RAN中超参数,包括句子长度、单词长度等,此外模型使用Xavier方法进行参数初始化。模型通过编码层分别获得语料文本和图片特征,之后通过共同注意力层将文本和图片特征融合得到多模态特征序列,最后将所得到的多模态特征序列通过解码层得到标签序列。对比试验验证结果表明,相较于其他模型,本发明专利技术提出的多模态评价对象抽取模型结果最优。型结果最优。型结果最优。

【技术实现步骤摘要】
一种基于区域感知对齐网络的多模态评价对象抽取方法


[0001]本专利技术涉及自然语言处理方法,具体涉及一种基于区域感知对齐网络(Region

aware Alignment Network,RAN)的多模态评价对象抽取方法。

技术介绍

[0002]情感分类可被分为四个子任务:(1)评价对象抽取(Aspect Term Extraction):给定一句子,抽取句子中出现的所有评价对象;(2)评价对象情感分类(Aspect Term Polarity):给定一句子,并指定句子中出现的评价对象,分析句子针对该评价对象的情感极性;(3)评价类别检测:给定一句子,将其评价对象分类至预定义的评价对象类别中;(4)基于类别的评价对象情感分类:给定一句子,判断基于指定类别评价对象的情感极性。由此可见,评价对象抽取作为情感分析中的一个重要子任务,在整个情感分析中起到了重要的前驱作用,是后续任务取得良好结果的前提。
[0003]多模态学习指的是一类综合多个模态(如文字,语音,图片,视频等)的信息,通过分析模态之间的关系实现信息融合,最终实现处理和理解多源模态信息的能力。随着传统单模态领域学习发展到了一定高度,而如视觉问答、图像文本双向检索等多模态应用的需求不断增多,多模态学习也成为了一个重要的研究领域。从方向上来划分,多模态学习主要可以划分为多模态表示学习、模态转化、多模态对齐、多模态融合和协同学习五个研究方向。
[0004]过往对于评价对象抽取多集中于文本,多模态评价对象抽取方法还较为不成熟,具有众多难题需要解决。首先,由于社交媒体语料的非正式性,其中文本含有大量的缩写和语病。若采用基于传统词向量的表示,则会导致大量词语由于不在词库中而作为未登录词处理,而传统词向量将所有未登录词均由同一向量表示,这将导致模型的有效性严重下降。此外,传统词向量将导致短语信息的丢失。其次,社交媒体语料与传统语料最本质的区别在于其拥有对应的图片信息。一般情况下,同一语料中的图片和文字是高度关联的,文本所涉及的评价对象大多数情况下会在图像中以主体部分出现,但也通常存在被称为噪声的与任务无关的信息,因此在融合图片信息时降低噪声的影响就成为了关键。

技术实现思路

[0005]专利技术目的:基于现有技术的不足,本专利技术提出一种基于区域感知对齐网络的多模态评价对象抽取方法,通过具有编码层,共同注意力层和解码层的基于区域感知对齐网络的多模态评价对象抽取模型,充分利用图片和文本特征提升评价对象抽取性能。
[0006]技术方案:一种基于区域感知对齐网络的多模态评价对象抽取方法,具体可以分为为编码层,共同注意力层和解码层三个部分。编码层分为文本和图片部分。文本部分充分考虑语料特点,采用BERT对文本生成上下文相关的词向量编码,且采用字符级向量已解决未登录词问题,最后使用双向LSTM以加强文本序列的时序信息。图片部分,通过Faster

RCNN目标检测网络捕捉图片特征。在共同注意力层中,首先通过文本对于图片的注意力获
得每个时间步上的图片表示;再通过获得的图片表示和原文本序列进行注意力计算已获得每个时间步上的文本表示;最后将图片表示和文本表示进行模态间融合,再通过过滤门将图片中的噪声去除。在解码层中,使用CRF算法学习输出之间的依赖关系,并计算各时间步上输出标签的概率,以最大值作为该时间步的预测标签。
[0007]所述编码层中的BERT即为2018年Google提出的基于Transformer的双向编码表示(Bidirectional Encoder Representations from Transformers,BERT),其以Transformer编码器为核心,其base版本的主体结构以12个Transformer编码器堆叠而成,核心内容为自注意力结构。对于基本的注意力结构,可以表示为:
[0008][0009]其中分别代表查询向量、键向量和值向量。而对于自注意力结构来说,该三个向量都来自于同一个输入结构,从而根据查询向量与键向量的内积后经过归一化获得输入中任意两个单位之间的关系比重,基于该比重对值向量加权求和得到输入的自注意力表示。BERT在33亿文本的语料上进行了两个任务的预训练,分别为掩盖语言模型(Masked Language Model)和下一句预测(Next SentencePrediction)。掩盖语言模型的任务为在句子中随机替换15%的词语为[MASK],让模型预测对该掩盖词进行预测;下一句预测在训练中对语料上下文随机替换,最后通过BERT得到的句子表示判断两个句子是否互为上下文。第一项训练使得最终的词向量表示包含上下文的相关信息,第二项使得模型能够更加准确的刻画语句乃至文章之间的语义关系,从而模型最终输出的每个词向量都能够尽可能的包含整个句子的信息。
[0010]所述编码层中的字符级向量通过Char

CNN对每个单词进行卷积操作以获得其字符级别的一维向量表示,通过该向量可以更好的捕捉单词的词法信息,从而缓解社交媒体语料中未登录词过多的问题。模型将语料中出现的所有字符进行向量随机初始化,并将单词补齐至同一长度以方便批处理。对于单个单词w
i
而言,采用不同大小的卷积核[C1,C2,

,C
k
]对单词中的字符向量进行步长为1的一维卷积。对于卷积核C
j
,得到序列:
[0011][0012]其中k为卷积核的序号,l
j
为卷积核的大小。之后,对该卷积核序列进行时间步上的最大池化,从而得到对于该卷积核的向量表示:
[0013]w

ij
=MaxPoolld(F
ij
)
[0014]之后,通过拼接所有k个卷积核对应的词向量表示得到单词的字符级向量表示:
[0015][0016]而通过使用所述双向LSTM,模型可以充分把握输入序列内部的时序信息。对应第i条语料,其文本向量表示为T
i
={w1,w2,

,w
m
},经过LSTM层后得到对应的隐状态序列H
i
={h1,h2,

,h
m
}。其中w
i
为BERT输出和字符集向量拼接后的结果,m为语料长度。
[0017]所述编码层中的Faster

RCNN通过将图片输入目标检测网络得到图片特征,而本专利技术认为大多数情况下文本的评价对象对应于图片中出现的物体之一。因此,模型采用Faster

RCNN识别到的N个目标物体一维特征向量作为图片特征输入网络,并将提取目标不
足N的图片以零向量补齐。
[0018]编码层对两个模态的输入都进行了针对性的处理,将文本和图片被分别编码为向量送入上层网络。对于文本来说,通过使用Char

CNN进行字符级词向量编码,减弱了语料中过多本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于区域感知对齐网络的多模态评价对象抽取方法,其特征在于,该方法模型包括编码层、共同注意力层以及解码层,模型使用Xavier方法进行参数初始化,模型通过编码层分别获得文本和图片特征,通过共同注意力层将文本和图片特征融合得到多模态特征序列,最后通过解码层由多模态特征序列得到标签序列。2.根据权利要求1所述的一种基于区域感知对齐网络的多模态评价对象抽取方法,其特征在于,所述编码层包括BERT、Char

CNN、双向LSTM网络和Faster

RCNN共4部分,所述BERT部分引入外部信息,所述Char

CNN部分进行字符级词向量编码,所述双向LSTM网络从BERT编码结果与Char

CNN编码结果拼接后序列中捕获文本序列信息,所述Faster

RCNN捕捉图片中出现的前景物体作为相应的图片特征。3.根据权利要求2所述的一种基于区域感知对齐网络的多模态评价对象抽取方法,其特征在于,所述BERT为BERT

base预训练模型,包含12个Transformer层,对BERT中12层Transformer的输出向量做平均作为BERT的最终输出,得到的词向量维度为768,句长为40。4.根据权利要求2所述的一种基于区域感知对齐网络的多模态评价对象抽取方法,其特征在于,所述Char

CNN维度设置为30,其初始化遵循(

0.25,0.25)的均匀分布,词长为30。5.根据权利要求2所述的一种基于区域感知对齐网络的多模态评价对象抽取方法,其特征在于,所述Faster

RCNN识别到的N个目标物体一维特征向量作为图片特征输入网络,并将提取目标不足N的图片以零向量补齐。6.根据权利要求1所述的一种基于区域感知对齐网络的多模态评价对象抽取方法,其特征在于,所述共同注意力层包括文字导向视觉注意力、视觉导向文字注意力、门控多模态融合单元和过滤门,所述文字导向视觉注意力和视觉导向文字注意力将文本和图片特征充分交互,并获得了序列任意时刻t时的文本注意力向量和图片注意力向量,所述门控多模态融合单元决定最终的多模态表示分别从文本和图片中获得多少,所述过滤门通过判断语料中的图片和文本有多大程度上的关联来决定如何使用上一步获得的多模态特征。7.根据权利要求6所述的一种基于区域感知对齐网络的多模态评价对象抽取方法,其特征在于,所述文字导向视觉注意力得到t时间步时的图片注意力特征如下式表示:其中α
t
为t时间步对应的目标物体权重向量,α

【专利技术属性】
技术研发人员:李露李昕玮王启鹏华梓萱魏素忠周爱华吴含前陈锦铭叶迪卓然陈烨焦昊郭雅娟
申请(专利权)人:国网江苏省电力有限公司电力科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1