一种基于自监督学习的示意图表征增强方法及系统技术方案

技术编号:35832597 阅读:29 留言:0更新日期:2022-12-03 14:02
本发明专利技术公开了一种基于自监督学习的示意图表征增强方法及系统,在图像和文本特征提取阶段,对示意图进行增广变换,识别出示意图中的文本框内容,对文本内容和示意图分别进行编码得到文本特征和图像特征;在文本指导下的示意图表征增强阶段,以文本特征为依据,应用指导注意力单元对图像特征进行增强;在对比自监督学习阶段,本发明专利技术通过投影函数将原图像和增广示意图增强特征映射至低维向量空间中,以低维向量计算损失并优化模型。维向量计算损失并优化模型。维向量计算损失并优化模型。

【技术实现步骤摘要】
一种基于自监督学习的示意图表征增强方法及系统


[0001]本专利技术属于示意图处理
,具体涉及一种基于自监督学习的示意图表征增强方法及系统。

技术介绍

[0002]以往的在线学习仅仅是一种简单的人机交互方式,其不能为学习者提供个性化和智能化的教学,因此智慧教育应运而生,智能问答系统是智慧教育重要组成部分之一,其不仅扮演着传统教育中的老师角色,也是用户的学习小助手。智能问答系统需要机器具备阅读理解能力。机器阅读理解要求机器能够自动生成问题的答案,其自然语言问题通常与给定的一段文本相关。不同于机器阅读理解,视觉问答在输入中增加了图像信息。视觉问答任务给定一张图像和一个自然语言问题,要求通过图像的视觉元素和常识去推断正确答案。
[0003]近年来,随着文本、图像、知识推理的研究工作逐步火热,在视觉问答中,问题的答案并不是通过自然语言给出,机器往往需要在给定图片中寻找特征并推理正确答案。想要正确回答VQA中的问题,机器不仅需要自然语言处理能力和计算机视觉相关能力,而且需要具备跨模态知识融合的能力。
[0004]传统视觉问答任务的输入仅包含图像和问题,而教育领域的存在大量示意图,回答问题往往需要参考相关专业知识。其通常使用抽象的图形化符号而不是真实图像来呈现元素和场景,而且不同学科领域元素表达差异性较大,如CSDia、AI2D、Plotqa等数据集。因此,传统视觉问答数据集和相关研究无法满足教育领域的需求。教科书问答研究是机器阅读理解任务和视觉问答任务的结合,也是这两大任务的扩展。课程领域的示意图不完全等同于自然图像,而且教科书问答中的多模态信息融合与视觉问答信息融合存在较大差异。

技术实现思路

[0005]本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于自监督学习的示意图表征增强方法及系统,利用示意图表达形式存在多样性且图中含有文本框的特点,用于解决示意图理解及其特征提取的技术问题。
[0006]本专利技术采用以下技术方案:
[0007]一种基于自监督学习的示意图表征增强方法,包括以下步骤:
[0008]S1、对示意图进行图像增广,得到对应的增广示意图,使用循环神经网络提取示意图中的多个文本框的文本特征,使用卷积神经网络提取示意图的图像特征,得到示意图特征;
[0009]S2、使用自注意力单元对步骤S1得到的文本特征进行增强,得到文本增强特征,使用文本增强特征作为指导,通过文本增强特征在示意图特征上的关注度对步骤S1得到的示意图特征进行增强,得到示意图表征增强网络;
[0010]S3、使用步骤S2得到的示意图表征增强网络对步骤S1的示意图及对应的增广示意图进行特征提取,得到增强特征集合,将增强特征集合由高维特征投影至低维特征向量中,
根据低维特征向量计算损失函数,通过最小化损失函数的损失值优化示意图表征增强网络的参数,实现基于自监督学习的示意图表征增强。
[0011]具体的,步骤S1具体为:
[0012]S101、对示意图进行图像增广,得到对应的增广示意图;
[0013]S102、卷积神经网络ResNet在示意图特征提取时依靠训练保留有效的浅层卷积特征,使最终输出的示意图特征包含全面且多样化的信息,使用ResNet提取示意图特征,生成图像特征向量;
[0014]S103、使用BERT预训练好的词向量进行词嵌入表示,使用长短期记忆网络的扩展网络循环门控单元对示意图中的文本框特征进行提取,取文本框最后一个单词的隐藏层特征作为文本框内容的特征向量,将文本框特征向量拼接组成对应示意图中的文本特征。
[0015]进一步的,步骤S101中,增广方式包括转化为灰度图、通道消除、水平翻转、低角度旋转、随机遮挡和/或斜切。
[0016]具体的,步骤S2具体为:
[0017]S201、使用自注意力单元对对步骤S1得到的文本特征进行增强,得到文本增强特征;
[0018]S202、对步骤S1得到的示意图特征向量,以对应的增强文本特征作为指导,对示意图特征进行增强,表示出文本在示意图中所指的对象特征,结合步骤S1的卷积神经网络和循环神经网络,步骤S201得到的文本特征增强构建示意图表征增强网络。
[0019]进一步的,步骤S201具体为:
[0020]设置查询、键、值为相同的维度d,计算一个查询与所有键的点积注意力,将多个查询向量拼接得到查询矩阵Q;通过多头注意力机制学习文本特征矩阵内向量之间的关系,并通过所有特征向量加权求和得到重构特征,相加得到原始的增强特征,再进行归一化;在归一化后使用全连接网络作为前馈层,再将原增强特征与全连接网络输出特征相加并归一化得到示意图中文本框内文本最终的增强特征。
[0021]进一步的,步骤S202具体为:
[0022]将示意图特征进行扩展,进行拼接得到示意图扩展特征,在多头注意力后使用相加和归一化,输入为文本增强特征和示意图扩展特征,通过文本增强特征在示意图特征上的关注度对示意图特征进行增强,输出为示意图增强特征,结合步骤S1的卷积神经网络和循环神经网络,步骤S201得到的文本特征增强构建示意图表征增强网络。
[0023]具体的,步骤S3具体为:
[0024]S301、随机选择步骤S1得到的一种示意图增广方式作为原图像的对比对象,将示意图表征增强网络记为f,根据示意图表征增强网络f得到原图像和增广示意图中的增强特征集合;
[0025]S302、使用含有一个隐藏层的全连接网络作为投影头,将步骤S1得到的增强特征集合由高维投影至低维向量空间中,获得高维特征向量的投影向量;
[0026]S303、将原图像和增广图像中同一文本框对应的特征向量记为正样本对,将不同文本框对应的特征向量记为负样本对,使用余弦相似度计算正样本对z
i
、z
j
的相似性,将正样本对z
i
、z
j
位置互换后再次计算损失,并将所有正样本对的损失取平均值作为最终的损失,通过最小化最终损失L,使用反向传播更新优化示意图特征学习网络f和投影网络g,优
化示意图表征增强网络f作为图像特征提取模块,实现基于自监督学习的示意图表征增强。
[0027]进一步的,步骤S303中,最小化最终损失L为:
[0028][0029]其中,m为示意图中的文本框个数,l为熵噪声对比估计,k为变量。
[0030]进一步的,正样本对z
i
、z
j
的相似性similarity(z
i
,z
j
)具体为:
[0031]similarity(z
i
,z
j
)=z
iT
z
j
/(||z
i
||||z
j
||)
[0032]其中,||
·
||为向量的模,T为向量转置。
[0033]第二方面本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自监督学习的示意图表征增强方法,其特征在于,包括以下步骤:S1、对示意图进行图像增广,得到对应的增广示意图,使用循环神经网络提取示意图中的多个文本框的文本特征,使用卷积神经网络提取示意图的图像特征,得到示意图特征;S2、对步骤S1得到的文本特征进行增强,得到文本增强特征,使用文本增强特征作为指导,通过文本增强特征在示意图特征上的关注度对步骤S1得到的示意图特征进行增强,得到示意图表征增强网络;S3、使用步骤S2得到的示意图表征增强网络对步骤S1的示意图及对应的增广示意图进行特征提取,得到增强特征集合,将增强特征集合由高维特征投影至低维特征向量中,根据低维特征向量计算损失函数,通过最小化损失函数的损失值优化示意图表征增强网络的参数,实现基于自监督学习的示意图表征增强。2.根据权利要求1所述的基于自监督学习的示意图表征增强方法,其特征在于,步骤S1具体为:S101、对示意图进行图像增广,得到对应的增广示意图;S102、使用卷积神经网络ResNet提取示意图的图像特征,得到示意图特征;S103、使用BERT预训练好的词向量进行词嵌入表示,使用长短期记忆网络的扩展网络循环门控单元对示意图中的多个文本框进行提取,取文本框最后一个单词的隐藏层特征作为文本框内容的特征向量,将文本框特征向量拼接组成对应示意图中的文本特征。3.根据权利要求2所述的基于自监督学习的示意图表征增强方法,其特征在于,步骤S101中,增广方式包括转化为灰度图、通道消除、水平翻转、低角度旋转、随机遮挡和/或斜切。4.根据权利要求1所述的基于自监督学习的示意图表征增强方法,其特征在于,步骤S2具体为:S201、使用自注意力单元对步骤S1得到的文本特征进行增强,得到文本增强特征;S202、对步骤S1得到的示意图特征,以对应的增强文本特征作为指导,对示意图特征进行增强,表示出文本在示意图中所指的对象特征,结合卷积神经网络和循环神经网络,文本特征增强构建示意图表征增强网络。5.根据权利要求4所述的基于自监督学习的示意图表征增强方法,其特征在于,步骤S201具体为:设置查询、键、值为相同的维度d,计算一个查询与所有键的点积注意力,将多个查询向量拼接得到查询矩阵Q;通过多头注意力机制学习文本特征矩阵内向量之间的关系,并通过所有特征向量加权求和得到重构特征,相加得到原始的增强特征,再进行归一化;在归一化后使用全连接网络作为前馈层,再将原增强特征与全连接网络输出特征相加并归一化得到示意图中文本框内文本最终的增强特征。6.根据权利要求4所述的基于自监督学习的示意图表征增强方法,其特征在于,步骤S202具体为:将示意图特征进行扩展,进行拼接得到示意图扩展特征,在多头注意力后使用相加和归一化,输入为文本增强特征和示意图扩展特征,通过文本增强特征在示意图特征上的关注度对示意图特征进行增强,输出为示意图增强特征,结合步骤S1的卷积神经网络和循环神经...

【专利技术属性】
技术研发人员:郑庆华李军军张玲玲魏笔凡武亚强刘博杨祎刘均
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1