基于先验知识启发大语言模型的图像推理问答方法技术

技术编号:38527300 阅读:21 留言:0更新日期:2023-08-19 17:03
本发明专利技术提出一种基于先验知识启发大语言模型的图像推理问答方法。本发明专利技术其核心在于通过在大语言模型上游引入一个可学习的、任务相关的视觉问答小模型,更好地激发大模型的潜力以解决视觉知识推理任务。本方法首次提出基于先验知识启发的方法,通过在大语言模型上游引入一个可学习的、任务相关的视觉问答小模型,构建先验知识启发向大语言模型输入更多图片的细节和关键信息,充分激发大语言模型的潜能,进而得到更好的结果,相比于先前的基于大语言模型的方法性能有了很大提升。语言模型的方法性能有了很大提升。语言模型的方法性能有了很大提升。

【技术实现步骤摘要】
of the IEEE/CVF conference on computer vision and pattern recognition.2021:5579

5588.和Yu Z,Yu J,Cui Y,etal.Deep modular co

attention networks for visual question answering[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition.2019:6281

6290.
[0009]OSCAR+是通过跨模态预训练技术得到的图像描述模型,在本专利技术中用于提取图像的概括性描述。MCAN模型是以Transformer模块为主干架构的高精度的视觉问答模型,本专利技术使用MCAN模型做为上游视觉问答模型用以提取先验知识启发。
[0010]综上所述,视觉知识推理是一个值得深入研究的课题,本专利就视觉知识推理问题提供了一个高准确率的技术方案,本专利具有本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于先验知识启发大语言模型的图像推理问答方法,其特征在于包括如下步骤:步骤(1):构建用于视觉问答模型训练的有标注的数据集D=其中q
i
表示问题,v
i
表示问题所询问的图片,a
i
为标注的答案短语,N
D
为数据集中的训练样本数量,收集数据集D中,出现次数大于设定值N
f
的答案短语构建为答案词表其中N
a
为答案词表的大小;步骤(2):构建上游视觉问答模型;使用预先训练好的BERT

large模型得到步骤(1)中所述问题的文本特征其中d
t
为模型表征的维度;使用预先训练好的CLIP模型得到所述问题所询问的图片的视觉特征其中n为视觉特征在平面上的区块数,d
f
为视觉特征的维度;将上述文本特征T和视觉特征F输入MCAN模型,输出答案潜在向量和预测置信度向量d
z
是该向量的维度;p中的每一个元素值代表答案词表中相应答案的置信度;步骤(3):训练上游视觉问答模型;步骤(4):获取图像描述模型OSCAR+,并结合训练好的上游视觉问答模型和图像描述模型OSCAR+将训练数据处理成示例集;步骤(5):获取待推理的图片和待推理的问题,将其输入训练好的上游视觉问答模型,利用所述示例集,提取先验知识启发;步骤(6):将待推理的图片输入所述图像描述模型OSCAR+生成该图片的描述,结合所述待推理的问题及所述先验知识启发构建提示语;步骤(7):将提示语输入大语言模型,提示其完成视觉问题的回答。2.如权利要求1所述的基于先验知识启发大语言模型的图像推理问答方法,其特征在于,所述步骤(2)中,所述答案潜在向量z是从MCAN的主干模型输出继而输入到MCAN的分类层的向量;所述预测置信度向量p是d
z
输入分类层之后输出的向量,p中的第i个值p[i]代表答案是答案词表A中的第i个答案短语a
i
的置信度。3.如权利要求2所述的基于先验知识启发大语言模型的图像推理问答方法,其特征在于,所述步骤(4)具体如下:4

1.取数据集D中每一个样本(q
i
,v
i
,a
i
)作为示例样本,将图片v
i
输入图像描述模型OSCAR+得到图片的文本描述C
i
;将问题q
i
和图片v
i
输入训练好的MCAN,得到相应的输出答案潜在向量和预测置信度向量4

2.构建示例样本的答案候选和文本表示选取p
i
中置信度最高的K个元素值对应的答案短语构成示例样本的答案候选:AC
i
={(a
k
,p
i
[k])|k∈argTOP
K
(p
i
),a
k
∈A}其中argTOP
K
函数表示向量或集合中值最大的K个值的下标构成的集合;然后将训练样本构造为如下文本表...

【专利技术属性】
技术研发人员:余宙邵镇炜俞俊郑力祥
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1