【技术实现步骤摘要】
本专利技术涉及人工智能领域,具体涉及一种视觉问答方法、装置、计算机设备和存储介质。
技术介绍
1、视觉问答(visual question answering,vqa)旨在让计算机能够理解和回答关于图像或视频内容的问题,一个vqa系统以一张图片或一段视频外加对应的开放式的自然语言问题作为输入,以生成一条自然语言的回答作为输出。vqa在文娱、安防、教育和医疗等领域有着广泛的应用,例如借助vqa快速总结出一段影视剧的背景和人物关系,以帮助用户获得更好的体验。在输入和输出的过程中,如何进行有效的视觉信息表征、如何有机融合视觉和文本信息,是视觉问答方法要解决的关键问题。
2、当前的相关技术往往采用单一的学习模型进行视觉特征的提取,使得获取到的视觉信息较为有限,导致影响后续回答问题的效果;或者所采用的用于提取视觉特征的学习模型与用于输出问题结果的学习模型相对独立,没有将vqa系统作为整体进行端到端的级联优化,使得整体的vqa系统解决问题的效果不佳。
技术实现思路
1、为解决现有存在的技术
...【技术保护点】
1.一种视觉问答方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述通过多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征之前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述通过预训练完成的多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征,包括:
4.根据权利要求1或3所述的方法,其特征在于,所述多个视觉模型还包括姿态估计模型;
5.一种视觉问答的模型训练方法,其特征在于,所述方法包括:
6.根据权利要求5所述的方法,其特征在于,所述通过待训练的
...【技术特征摘要】
1.一种视觉问答方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述通过多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征之前,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述通过预训练完成的多个视觉模型分别提取所述目标图像和/或目标视频中的视觉特征,包括:
4.根据权利要求1或3所述的方法,其特征在于,所述多个视觉模型还包括姿态估计模型;
5.一种视觉问答的模型训练方法,其特征在于,所述方法包括:
6.根据权利要求5所述的方法,其特征在于,所述通过待训练的多个视觉模型分别提取所述图像和/或视频中的视觉特征之前,所述方法还包括:
7.根据权利要求5所述的方法,其特征在于,所述通过待训练的多个视觉模型分别提取所述图像和/或视频中的视觉特征,包括:
8.根据权利要求5或7所述的方法,其特征在于,所述多个视觉模型还包括姿态估计模型;
9.根据权利要求5所述的方法,其特征在...
【专利技术属性】
技术研发人员:李嘉骐,陈茜,邓超,冯俊兰,
申请(专利权)人:中国移动通信有限公司研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。