一种视觉问答方法、系统、设备及可读存储介质技术方案

技术编号:37153430 阅读:28 留言:0更新日期:2023-04-06 22:12
本申请属于计算机应用技术领域,并公开了一种视觉问答方法、系统、设备及可读存储介质,该方法包括:获取输入图像和问句文本,并分别提取图像特征和文本特征;利用图像特征,获得输入图像的词汇字典;结合词汇字典和图像特征,对文本特征进行降噪处理,得到降噪后的文本特征;对降噪后的文本特征和图像特征进行交互编码;从交互编码结果中,确定出问句答案和问句文本的错误提示。在本申请中,针对有问题的问句,通过以图中信息来对其进行降噪处理,仍然能够进行答案预测,具有较强鲁棒性。具有较强鲁棒性。具有较强鲁棒性。

【技术实现步骤摘要】
一种视觉问答方法、系统、设备及可读存储介质


[0001]本申请涉及计算机应用
,特别是涉及一种视觉问答方法、系统、设备及可读存储介质。

技术介绍

[0002]视觉问答(Visual Question Answering,VQA)指的是根据指定输入图像,预测用户提问的正确答案的任务。作为一项结合了视觉和文本的多模态任务,VQA是众多多模态任务的基础,其属性符合当前国际环境下多模态人工智能领域的发展趋势。VQA通过理解图像内容,对问句中所述要素进行推理,最终输出合理的答案。
[0003]当前阶段,多模态研究主要集中在内容理解层面(人工智能理论研究大致可分为内容理解和内容生成),而VQA任务是内容理解的一个基础任务,人工智能能否理解图像和文本的内容可以体现在VQA任务的精度上。为解决该问题,不断探索多模态理解领域,成果显著。通过transformer(一个利用注意力机制来提高模型训练速度的模型)结构对视觉特征和文本特征联合编码,对不同模态的信息进行融合,这个流程可以解决大多数的VQA问题。
[0004]但是,在实际应用环境中,某本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视觉问答方法,其特征在于,包括:获取输入图像和问句文本,并分别提取图像特征和文本特征;利用所述图像特征,获得所述输入图像的词汇字典;结合所述词汇字典和所述图像特征,对所述文本特征进行降噪处理,得到降噪后的文本特征;对所述降噪后的文本特征和所述图像特征进行交互编码;从交互编码结果中,确定出问句答案和所述问句文本的错误提示。2.根据权利要求1所述的视觉问答方法,其特征在于,结合所述词汇字典和所述图像特征,对所述文本特征进行降噪处理,得到降噪后的文本特征,包括:对所述图像特征、所述词汇字典和所述文本特征进行初始化,得到异质图;对所述异质图进行迭代更新,并利用更新后的异质图确定所述降噪后的文本特征。3.根据权利要求2所述的视觉问答方法,其特征在于,对所述图像特征、所述词汇字典和所述文本特征进行初始化,得到异质图,包括:对所述图像特征、所述词汇字典和所述文本特征进行图文理解初始化,得到图文理解异质图;对所述图像特征、所述词汇字典和所述文本特征进行图文纠错初始化,得到图文纠错异质图。4.根据权利要求3所述的视觉问答方法,其特征在于,利用更新后的异质图确定所述降噪后的文本特征,包括:对更新后的所述图文理解异质图和所述图文纠错异质图进行叠加,得到所述降噪后的文本特征。5.根据权利要求3所述的视觉问答方法,其特征在于,对所述图像特征、所述词汇字典和所述文本特征进行图文理解初始化,得到图文理解异质图,包括:将所述图像特征初始化为视觉空间节点,在所述视觉空间节点中存储所述图像特征的特征向量;计算所述图像特征与所述文本特征的相似度,得到相似度矩阵;构造全零的词频相似度矩阵,并利用所述词汇字典对所述词频相似度矩阵进行赋值;将所述词频相似度矩阵和所述相似度矩阵进行叠加,得到边初始化矩阵;利用所述边初始化矩阵对所述视觉空间节点之间的边进行赋值,得到所述图文理解异质图。6.根据权利要求5所述的视觉问答方法,其特征在于,计算所述图像特征与所述文本特征的相似度,得到相似度矩阵,包括:计算所述图像特征与所述文本特征的余弦相似度,得到所述相似度矩阵。7.根据权利要求5所述的视觉问答方法,其特征在于,所述构造全零的词频相似度矩阵,包括:构造大小与所述相似度矩阵相同的词频相似度矩阵,并初始化为全零。8.根据权利要求5所述的视觉问答方法,其特征在于,所述利用所述词汇字典对所述词频相似度矩阵进行赋值,包括:将所述问句文本中的单词与所述词汇字典进行比对,并将所述词汇字典中的对应概率
值填充到所述词频相似度矩阵中。9.根据权利要求8所述的视觉问答方法,其特征在于,将所述问句文本中的单词与所述词汇字典进行比对,并将所述词汇字典中的对应概率值填充到所述词频相似度矩阵中,包括:在所述词汇字典中查找所述问句文本中的单词,确定所述单词在所述词汇字典中的概率值和序号;将所述概率值填入所述词频相似度矩阵中,以所述序号和所述单词在所述问句文本中出现的次序所确定的位置。10.根据权利要求5所述的视觉问答方法,其特征在于,对所述图像特征、所述词汇字典和所述文本特征进行图文纠错初始化,得到图文纠错异质图,包括:计算1减去所述边初始化矩阵,得到构建所述图文纠错异质图的边初始化矩阵;利用所述图文纠错异质图的边初始化矩阵,对所述视觉空间节点之间的边进行赋值,得到所述图文纠错异质图。11.根据权利要求2所述的视觉问答方法,其特征在于,对所述异质图进...

【专利技术属性】
技术研发人员:范宝余李仁刚李晓川郭振华赵雅倩
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1