一种视觉问答方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:43121498 阅读:11 留言:0更新日期:2024-10-26 09:59
本发明专利技术公开了一种视觉问答方法、装置、计算机设备和存储介质。所述方法包括:获得目标图像和/或目标视频,以及获得所述目标图像和/或目标视频对应的问题文本;通过预训练完成的多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征,对多个视觉特征进行拼接,获得多维特征向量;其中,所述多个视觉模型至少包括下列一项或多项:分类模型、目标检测模型、分割模型和图像描述模型;将所述问题文本进行编码,获得第一向量,利用预训练完成的对齐模型对所述多维特征向量和所述第一向量进行融合,获得第二向量;通过语言模型对所述第二向量进行处理,获得所述问题文本的回答文本。

【技术实现步骤摘要】

本专利技术涉及人工智能领域,具体涉及一种视觉问答方法、装置、计算机设备和存储介质


技术介绍

1、视觉问答(visual question answering,vqa)旨在让计算机能够理解和回答关于图像或视频内容的问题,一个vqa系统以一张图片或一段视频外加对应的开放式的自然语言问题作为输入,以生成一条自然语言的回答作为输出。vqa在文娱、安防、教育和医疗等领域有着广泛的应用,例如借助vqa快速总结出一段影视剧的背景和人物关系,以帮助用户获得更好的体验。在输入和输出的过程中,如何进行有效的视觉信息表征、如何有机融合视觉和文本信息,是视觉问答方法要解决的关键问题。

2、当前的相关技术往往采用单一的学习模型进行视觉特征的提取,使得获取到的视觉信息较为有限,导致影响后续回答问题的效果;或者所采用的用于提取视觉特征的学习模型与用于输出问题结果的学习模型相对独立,没有将vqa系统作为整体进行端到端的级联优化,使得整体的vqa系统解决问题的效果不佳。


技术实现思路

1、为解决现有存在的技术问题,本专利技术实施本文档来自技高网...

【技术保护点】

1.一种视觉问答方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述通过多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征之前,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述通过预训练完成的多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征,包括:

4.根据权利要求1或3所述的方法,其特征在于,所述多个视觉模型还包括姿态估计模型;

5.一种视觉问答的模型训练方法,其特征在于,所述方法包括:

6.根据权利要求5所述的方法,其特征在于,所述通过待训练的多个视觉模型分别提取...

【技术特征摘要】

1.一种视觉问答方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述通过多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征之前,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述通过预训练完成的多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征,包括:

4.根据权利要求1或3所述的方法,其特征在于,所述多个视觉模型还包括姿态估计模型;

5.一种视觉问答的模型训练方法,其特征在于,所述方法包括:

6.根据权利要求5所述的方法,其特征在于,所述通过待训练的多个视觉模型分别提取所述图像和/或视频中的视觉特征之前,所述方法还包括:

7.根据权利要求5所述的方法,其特征在于,所述通过待训练的多个视觉模型分别提取所述图像和/或视频中的视觉特征,包括:

8.根据权利要求5或7所述的方法,其特征在于,所述多个视觉模型还包括姿态估计模型;

9.根据权利要求5所述的方法,其特征在...

【专利技术属性】
技术研发人员:李嘉骐陈茜邓超冯俊兰
申请(专利权)人:中国移动通信有限公司研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1