【技术实现步骤摘要】
一种基于区域感知对齐网络的多模态评价对象抽取方法
[0001]本专利技术涉及自然语言处理方法,具体涉及一种基于区域感知对齐网络(Region
‑
aware Alignment Network,RAN)的多模态评价对象抽取方法。
技术介绍
[0002]情感分类可被分为四个子任务:(1)评价对象抽取(Aspect Term Extraction):给定一句子,抽取句子中出现的所有评价对象;(2)评价对象情感分类(Aspect Term Polarity):给定一句子,并指定句子中出现的评价对象,分析句子针对该评价对象的情感极性;(3)评价类别检测:给定一句子,将其评价对象分类至预定义的评价对象类别中;(4)基于类别的评价对象情感分类:给定一句子,判断基于指定类别评价对象的情感极性。由此可见,评价对象抽取作为情感分析中的一个重要子任务,在整个情感分析中起到了重要的前驱作用,是后续任务取得良好结果的前提。
[0003]多模态学习指的是一类综合多个模态(如文字,语音,图片,视频等)的信息,通过分析模态之间的关系实现信息融合,最终实现处理和理解多源模态信息的能力。随着传统单模态领域学习发展到了一定高度,而如视觉问答、图像文本双向检索等多模态应用的需求不断增多,多模态学习也成为了一个重要的研究领域。从方向上来划分,多模态学习主要可以划分为多模态表示学习、模态转化、多模态对齐、多模态融合和协同学习五个研究方向。
[0004]过往对于评价对象抽取多集中于文本,多模态评价对象抽取方法还较为不成熟,具有众 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于区域感知对齐网络的多模态评价对象抽取方法,其特征在于,该方法模型包括编码层、共同注意力层以及解码层,模型使用Xavier方法进行参数初始化,模型通过编码层分别获得文本和图片特征,通过共同注意力层将文本和图片特征融合得到多模态特征序列,最后通过解码层由多模态特征序列得到标签序列。2.根据权利要求1所述的一种基于区域感知对齐网络的多模态评价对象抽取方法,其特征在于,所述编码层包括BERT、Char
‑
CNN、双向LSTM网络和Faster
‑
RCNN共4部分,所述BERT部分引入外部信息,所述Char
‑
CNN部分进行字符级词向量编码,所述双向LSTM网络从BERT编码结果与Char
‑
CNN编码结果拼接后序列中捕获文本序列信息,所述Faster
‑
RCNN捕捉图片中出现的前景物体作为相应的图片特征。3.根据权利要求2所述的一种基于区域感知对齐网络的多模态评价对象抽取方法,其特征在于,所述BERT为BERT
‑
base预训练模型,包含12个Transformer层,对BERT中12层Transformer的输出向量做平均作为BERT的最终输出,得到的词向量维度为768,句长为40。4.根据权利要求2所述的一种基于区域感知对齐网络的多模态评价对象抽取方法,其特征在于,所述Char
‑
CNN维度设置为30,其初始化遵循(
‑
0.25,0.25)的均匀分布,词长为30。5.根据权利要求2所述的一种基于区域感知对齐网络的多模态评价对象抽取方法,其特征在于,所述Faster
‑
RCNN识别到的N个目标物体一维特征向量作为图片特征输入网络,并将提取目标不足N的图片以零向量补齐。6.根据权利要求1所述的一种基于区域感知对齐网络的多模态评价对象抽取方法,其特征在于,所述共同注意力层包括文字导向视觉注意力、视觉导向文字注意力、门控多模态融合单元和过滤门,所述文字导向视觉注意力和视觉导向文字注意力将文本和图片特征充分交互,并获得了序列任意时刻t时的文本注意力向量和图片注意力向量,所述门控多模态融合单元决定最终的多模态表示分别从文本和图片中获得多少,所述过滤门通过判断语料中的图片和文本有多大程度上的关联来决定如何使用上一步获得的多模态特征。7.根据权利要求6所述的一种基于区域感知对齐网络的多模态评价对象抽取方法,其特征在于,所述文字导向视觉注意力得到t时间步时的图片注意力特征如下式表示:其中α
t
为t时间步对应的目标物体权重向量,α
技术研发人员:李露,李昕玮,王启鹏,华梓萱,魏素忠,周爱华,吴含前,陈锦铭,叶迪卓然,陈烨,焦昊,郭雅娟,
申请(专利权)人:国网江苏省电力有限公司电力科学研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。