一种视觉问答的方法、装置及介质制造方法及图纸

技术编号:31323342 阅读:24 留言:0更新日期:2021-12-13 00:12
本发明专利技术公开了一种视觉问答方法、装置及介质,应用于深度学习领域,获取目标文字和目标图像,并将目标文字与目标图像分别转换为文字数据和图像数据;将文字数据以及图像数据分别输入至基于Transformer的模型中提取文字特征和图像特征,进而将文字特征和图像特征输入至Transformer的模型得到融合特征,最后将融合特征输入至分类器得到视觉问答任务的答案。在特征提取方面完全采用Transformer模型,加快提取速度,节省计算成本,减少运算参数量,将文字特征和图像特征进行聚合,使来自图像特征与文本特征的信息达到更好的交互,提高特征表征能力,提升特征提取运行速率,提高视觉问答的答案准确率。答案准确率。答案准确率。

【技术实现步骤摘要】
一种视觉问答的方法、装置及介质


[0001]本专利技术涉及深度学习领域,特别是涉及一种视觉问答的方法、装置及介质。

技术介绍

[0002]随着人工智能的快速发展,通常情况下赋予机器学习输出人们想要的结果。然而在深度学习领域中的单模态方法的计算机视觉(Computer Vision,CV)和自然语言处理(Natural language processing,NLP)进入瓶颈状态,多模态深度学习逐渐成为研究热点,以CV和NLP结合的视觉问答(Visual Question Answering,VQA)为主,其VQA是一张图片和有关图片的自然语言问题作为输入,赋予机器理解和融合图像,语言模态所包含的信息将其输出答案。
[0003]现有的VQA模型其特征提取方面包括三个模块,文字特征提取、图像特征提取和特征融合模块,对于文字特征提取模块,常用的有循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long Short Term Memory networks,LSTM)、门控循环单元(Gated Recu本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视觉问答方法,其特征在于,包括:获取视觉问答任务对应的目标文字和目标图像,并将所述目标文字与所述目标图像分别转换为文字数据和图像数据;将所述文字数据和所述图像数据前分别加入CLS Token标志,以便于聚合所述文字数据和所述图像数据所包含的信息并进行下游任务的预测;将所述文字数据以及所述图像数据分别输入至基于Transformer的模型中以提取所述文字数据的文字特征和所述图像数据的图像特征;将所述文字特征和所述图像特征拼接并输入至所述Transformer的模型得到融合特征;将所述融合特征输入至分类器得到所述视觉问答任务的答案。2.根据权利要求1所述的视觉问答方法,其特征在于,将所述文字数据输入至基于Transformer的模型中以提取所述文字数据的文字特征,包括:将所述文字数据输入至BERT模型中以提取所述文字数据的所述文字特征,其中所述BERT模型基于所述Transformer的模型得到。3.根据权利要求1所述的视觉问答方法,其特征在于,将所述图像数据输入至基于Transformer的模型中以提取所述图像数据的图像特征,包括:将所述图像数据输入至ViT模型中以提取所述图像数据的所述图像特征,其中所述ViT模型基于所述Transformer的模型得到。4.根据权利要求1所述的视觉问答方法,其特征在于,在所述将所述文字特征和所述图像特征拼接之后,在所述输入至所述Transformer的模型得到融合特征之前,还包括:为所述文字特征和所述图像特征提供位置嵌入,以便于识别所述文字特征和所述图像特征拼接后的顺序关系。5.根据权利要求1或4所述的视觉问答...

【专利技术属性】
技术研发人员:王润民徐尉翔朱桂林刘莹莹刘明昊朱祯琳朱姿諭丁亚军戴颖龙代建华
申请(专利权)人:湖南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1