一种基于自监督学习的示意图表征增强方法及系统技术方案

技术编号：35832597 阅读：29 留言：0更新日期：2022-12-03 14:02

本发明专利技术公开了一种基于自监督学习的示意图表征增强方法及系统，在图像和文本特征提取阶段，对示意图进行增广变换，识别出示意图中的文本框内容，对文本内容和示意图分别进行编码得到文本特征和图像特征；在文本指导下的示意图表征增强阶段，以文本特征为依据，应用指导注意力单元对图像特征进行增强；在对比自监督学习阶段，本发明专利技术通过投影函数将原图像和增广示意图增强特征映射至低维向量空间中，以低维向量计算损失并优化模型。维向量计算损失并优化模型。维向量计算损失并优化模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自监督学习的示意图表征增强方法及系统

[0001]本专利技术属于示意图处理
，具体涉及一种基于自监督学习的示意图表征增强方法及系统。

技术介绍

[0002]以往的在线学习仅仅是一种简单的人机交互方式，其不能为学习者提供个性化和智能化的教学，因此智慧教育应运而生，智能问答系统是智慧教育重要组成部分之一，其不仅扮演着传统教育中的老师角色，也是用户的学习小助手。智能问答系统需要机器具备阅读理解能力。机器阅读理解要求机器能够自动生成问题的答案，其自然语言问题通常与给定的一段文本相关。不同于机器阅读理解，视觉问答在输入中增加了图像信息。视觉问答任务给定一张图像和一个自然语言问题，要求通过图像的视觉元素和常识去推断正确答案。
[0003]近年来，随着文本、图像、知识推理的研究工作逐步火热，在视觉问答中，问题的答案并不是通过自然语言给出，机器往往需要在给定图片中寻找特征并推理正确答案。想要正确回答VQA中的问题，机器不仅需要自然语言处理能力和计算机视觉相关能力，而且需要具备跨模态知识融合的能力。
[0004]传统视觉问答任务的输入仅包含图像和问题，而教育领域的存在大量示意图，回答问题往往需要参考相关专业知识。其通常使用抽象的图形化符号而不是真实图像来呈现元素和场景，而且不同学科领域元素表达差异性较大，如CSDia、AI2D、Plotqa等数据集。因此，传统视觉问答数据集和相关研究无法满足教育领域的需求。教科书问答研究是机器阅读理解任务和视觉问答任务的结合，也是这两大任务的扩展。课程领域的示意图不完全等...

【技术保护点】

【技术特征摘要】
1.一种基于自监督学习的示意图表征增强方法，其特征在于，包括以下步骤：S1、对示意图进行图像增广，得到对应的增广示意图，使用循环神经网络提取示意图中的多个文本框的文本特征，使用卷积神经网络提取示意图的图像特征，得到示意图特征；S2、对步骤S1得到的文本特征进行增强，得到文本增强特征，使用文本增强特征作为指导，通过文本增强特征在示意图特征上的关注度对步骤S1得到的示意图特征进行增强，得到示意图表征增强网络；S3、使用步骤S2得到的示意图表征增强网络对步骤S1的示意图及对应的增广示意图进行特征提取，得到增强特征集合，将增强特征集合由高维特征投影至低维特征向量中，根据低维特征向量计算损失函数，通过最小化损失函数的损失值优化示意图表征增强网络的参数，实现基于自监督学习的示意图表征增强。2.根据权利要求1所述的基于自监督学习的示意图表征增强方法，其特征在于，步骤S1具体为：S101、对示意图进行图像增广，得到对应的增广示意图；S102、使用卷积神经网络ResNet提取示意图的图像特征，得到示意图特征；S103、使用BERT预训练好的词向量进行词嵌入表示，使用长短期记忆网络的扩展网络循环门控单元对示意图中的多个文本框进行提取，取文本框最后一个单词的隐藏层特征作为文本框内容的特征向量，将文本框特征向量拼接组成对应示意图中的文本特征。3.根据权利要求2所述的基于自监督学习的示意图表征增强方法，其特征在于，步骤S101中，增广方式包括转化为灰度图、通道消除、水平翻转、低角度旋转、随机遮挡和/或斜切。4.根据权利要求1所述的基于自监督学习的示意图表征增强方法，其特征在于，步骤S2具体为：S201、使用自注意力单元对步骤S1得到的文本特征进行增强，得到文本增强特征；S202、对步骤S1得到的示意图特征，以对应的增强文本特征作为指导，对示意图特征进行增强，表示出文本在示意图中所指的对象特征，结合卷积神经网络和循环神经网络，文本特征增强构建示意图表征增强网络。5.根据权利要求4所述的基于自监督学习的示意图表征增强方法，其特征在于，步骤S201具体为：设置查询、键、值为相同的维度d，计算一个查询与所有键的点积注意力，将多个查询向量拼接得到查询矩阵Q；通过多头注意力机制学习文本特征矩阵内向量之间的关系，并通过所有特征向量加权求和得到重构特征，相加得到原始的增强特征，再进行归一化；在归一化后使用全连接网络作为前馈层，再将原增强特征与全连接网络输出特征相加并归一化得到示意图中文本框内文本最终的增强特征。6.根据权利要求4所述的基于自监督学习的示意图表征增强方法，其特征在于，步骤S202具体为：将示意图特征进行扩展，进行拼接得到示意图扩展特征，在多头注意力后使用相加和归一化，输入为文本增强特征和示意图扩展特征，通过文本增强特征在示意图特征上的关注度对示意图特征进行增强，输出为示意图增强特征，结合步骤S1的卷积神经网络和循环神经...

【专利技术属性】
技术研发人员：郑庆华，李军军，张玲玲，魏笔凡，武亚强，刘博，杨祎，刘均，
申请(专利权)人：西安交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人