【技术实现步骤摘要】
一种视觉问答的方法、装置及介质
[0001]本专利技术涉及深度学习领域,特别是涉及一种视觉问答的方法、装置及介质。
技术介绍
[0002]随着人工智能的快速发展,通常情况下赋予机器学习输出人们想要的结果。然而在深度学习领域中的单模态方法的计算机视觉(Computer Vision,CV)和自然语言处理(Natural language processing,NLP)进入瓶颈状态,多模态深度学习逐渐成为研究热点,以CV和NLP结合的视觉问答(Visual Question Answering,VQA)为主,其VQA是一张图片和有关图片的自然语言问题作为输入,赋予机器理解和融合图像,语言模态所包含的信息将其输出答案。
[0003]现有的VQA模型其特征提取方面包括三个模块,文字特征提取、图像特征提取和特征融合模块,对于文字特征提取模块,常用的有循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long Short Term Memory networks,LSTM)、门控循环单元( ...
【技术保护点】
【技术特征摘要】
1.一种视觉问答方法,其特征在于,包括:获取视觉问答任务对应的目标文字和目标图像,并将所述目标文字与所述目标图像分别转换为文字数据和图像数据;将所述文字数据和所述图像数据前分别加入CLS Token标志,以便于聚合所述文字数据和所述图像数据所包含的信息并进行下游任务的预测;将所述文字数据以及所述图像数据分别输入至基于Transformer的模型中以提取所述文字数据的文字特征和所述图像数据的图像特征;将所述文字特征和所述图像特征拼接并输入至所述Transformer的模型得到融合特征;将所述融合特征输入至分类器得到所述视觉问答任务的答案。2.根据权利要求1所述的视觉问答方法,其特征在于,将所述文字数据输入至基于Transformer的模型中以提取所述文字数据的文字特征,包括:将所述文字数据输入至BERT模型中以提取所述文字数据的所述文字特征,其中所述BERT模型基于所述Transformer的模型得到。3.根据权利要求1所述的视觉问答方法,其特征在于,将所述图像数据输入至基于Transformer的模型中以提取所述图像数据的图像特征,包括:将所述图像数据输入至ViT模型中以提取所述图像数据的所述图像特征,其中所述ViT模型基于所述Transformer的模型得到。4.根据权利要求1所述的视觉问答方法,其特征在于,在所述将所述文字特征和所述图像特征拼接之后,在所述输入至所述Transformer的模型得到融合特征之前,还包括:为所述文字特征和所述图像特征提供位置嵌入,以便于识别所述文字特征和所述图像特征拼接后的顺序关系。5.根据权利要求1或4所述的视觉问答...
【专利技术属性】
技术研发人员:王润民,徐尉翔,朱桂林,刘莹莹,刘明昊,朱祯琳,朱姿諭,丁亚军,戴颖龙,代建华,
申请(专利权)人:湖南师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。