一种基于知识生成的视觉问答方法、装置及存储介质制造方法及图纸

技术编号：38195453 阅读：16 留言：0更新日期：2023-07-20 21:16

本发明专利技术公开了一种基于知识生成的视觉问答方法、装置及存储介质，属于视觉问答领域。其中方法包括以下步骤：基于问题引导的图像描述，将图片信息转化为问题相关的文本描述；构建提示模板，根据提示模板引导语言模型生成符合样式的多条候选知识；将所述候选知识、问题文本以及图像输入到统一编码器中，进行联合编码，获得多模态表征；对多条候选知的多模态表征识进行融合，获得知识增强特征，根据知识增强特征进行答案预测。本发明专利技术通过知识生成，只需少量的学习样本即可将预训练模型的积累的知识迁移到新的下游任务中，可广泛应用于开放场景下的知识视觉问答。场景下的知识视觉问答。场景下的知识视觉问答。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于知识生成的视觉问答方法、装置及存储介质

[0001]本专利技术涉及视觉问答领域，尤其涉及一种基于知识生成的视觉问答方法、装置及存储介质。

技术介绍

[0002]当前基于知识的视觉问答研究通常将问题文本和图像的物体标签作为检索关键词，在知识库中（如ConceptNet 和 Wikipedia）进行知识检索，并且将检索到的知识用于答案推理。由于现有的静态知识库通常是人工标注的，无法覆盖多样的关系类型，这也导致实体间关系类型比较局限。由于人工标注的静态知识库所构建的知识体系覆盖面较少，且其关系类型也较为局限，因此难以在开放场景下应用于知识视觉问答任务。

技术实现思路

[0003]为至少一定程度上解决现有技术中存在的技术问题之一，本专利技术的目的在于提供一种基于知识生成的视觉问答方法、装置及存储介质。
[0004]本专利技术所采用的技术方案是：一种基于知识生成的视觉问答方法，包括以下步骤：基于问题引导的图像描述，将图片信息转化为问题相关的文本描述；构建提示模板，根据提示模板引导语言模型生成符合样式的多条候选知识；将所述候选知识、问题文本以及图像输入到统一编码器中，进行联合编码，获得知识感知的多模态表征；对多条候选知的多模态表征识进行融合，获得知识增强特征，根据知识增强特征进行答案预测。
[0005]进一步地，所述基于问题引导的图像描述，将图片信息转化为问题相关的文本描述，包括：计算场景图区域与问题文本的相关性，根据所述相关性提取Top
‑
K个图像区域，输入到预设的图像...

【技术保护点】

【技术特征摘要】
1.一种基于知识生成的视觉问答方法，其特征在于，包括以下步骤：基于问题引导的图像描述，将图片信息转化为问题相关的文本描述；构建提示模板，根据提示模板引导语言模型生成符合样式的多条候选知识；将所述候选知识、问题文本以及图像输入到统一编码器中，进行联合编码，获得多模态表征；对多条候选知的多模态表征识进行融合，获得知识增强特征，根据知识增强特征进行答案预测。2.根据权利要求1所述的一种基于知识生成的视觉问答方法，其特征在于，所述基于问题引导的图像描述，将图片信息转化为问题相关的文本描述，包括：计算场景图区域与问题文本的相关性，根据所述相关性提取Top
‑
K个图像区域，输入到预设的图像描述生成模型，将场景图转化为文本描述，以便语言模型理解视觉内容。3.根据权利要求2所述的一种基于知识生成的视觉问答方法，其特征在于，所述场景图区域与问题文本的相关性通过以下方式计算获得：记场景图区域为视觉对象，计算问题文本与视觉对象的相似度分数：（1）（2）其中，和是视觉问答模型的可学习参数，是问题文本特征，表示转置，是问题句子长度，是场景图特征；是问题文本和视觉对象的相似度矩阵，表示问题文本中第个单词与第个视觉对象之间的相似度分数；根据公式（2），得到第个视觉对象的在问题引导下的注意力得分，对注意力得分进行归一化处理，得到每个视觉对象和问题文本的相关性，计算方式如下：其中，是温度系数，是第个视觉对象和问题文本的相关性。4.根据权利要求1所述的一种基于知识生成的视觉问答方法，其特征在于，所述构建提示模板，根据提示模板引导语言模型生成符合样式的多条候选知识，包括：构建提示模板；所述提示模板由任务指令和情境示例组成，每个情境示例由该情境示例对应的图像描述和问题文本以及标注的知识组成；当为新问题生成知识时，向语言模型输入所述提示模板，并拼接上新问题及该新问题对应的图像描述，同时输入一个占位符，引导语言模型从占位符后生成符合样式的文本；根据生成的文本获取多条候选知识。5.根据权利要求4所述的一种基于知识生成的视觉问答方法，其特征在于，所述提示模板包括任务提示头和个情境示例（），表达式如下：
设新问题为，假设生成的文本y由多个时间步的输入组成，即，因此，解码时间步的输出可表示为：其中，表示语言模型。6.根据权利要求1所述的一种基于知识生成的视觉问答方法，其特征在于，所述统一编码器为多层Transformer编码器；所述将所述候选知识、问题文本以及图像输入到统一编码器中，进行联合编码，获得知识感知的多模态表征，包括：将候选知识和问题文本进行拼接，获得文本序列：其中...

【专利技术属性】
技术研发人员：杜卿，杜雯靖，谭明奎，李利，
申请(专利权)人：广东广物互联网科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人