视觉问答模型的训练方法及装置、问答方法、介质、设备制造方法及图纸

技术编号:34737809 阅读:32 留言:0更新日期:2022-08-31 18:28
本公开是关于一种视觉问答模型的训练方法及装置、问答方法、介质、设备,涉及机器学习技术领域,该方法包括:获取原始图像以及与原始图像对应的原始问题文本,并利用视觉特征提取模型提取原始图像中包括图像特征;利用自然语言特征处理模型提取原始问题文本中包括的第一文本特征,并利用信息融合模型对图像特征以及第一文本特征进行融合,得到第一预测结果;利用概率簇重校准模型对第一预测结果进行校准,得到第二预测结果,并根据第二预测结果以及与原始图像以及原始问题文本对应的特征标签,构建第一损失函数;基于第一损失函数对待训练的视觉问答模型进行训练,得到训练完成的视觉问答模型。本公开提高了训练完成的视觉问答模型的精确度。问答模型的精确度。问答模型的精确度。

【技术实现步骤摘要】
视觉问答模型的训练方法及装置、问答方法、介质、设备


[0001]本公开实施例涉及机器学习
,具体而言,涉及一种视觉问答模型的训练方法、视觉问答方法、视觉问答模型的训练装置、计算机可读存储介质以及电子设备。

技术介绍

[0002]VQA(Visual Question Answering,视觉问答)模型应用较为广泛。具体的,例如,可以帮助盲人与客观世界进行交互、吸引消费者在线购物、用图像来吸引学习者进行教育服务、帮助分析师在监管数据中概括视觉数据、自动驾驶、图片的智能处理、能自动解数学题的机器人老师、执行一些琐碎的任务(例如在公园中发现一张空的野餐桌等)以及在缺乏图像标注的情况下进行图像检索等。
[0003]但是,传统的VQA模型在算法层面上,经常单纯通过对文本问题和答案的匹配关系来进行答案的预测,并未参考图片的信息,进而使得VQA模型的精确度较低。
[0004]需要说明的是,在上述
技术介绍
部分专利技术的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。/>
技术实现思路
...

【技术保护点】

【技术特征摘要】
1.一种视觉问答模型的训练方法,其特征在于,包括:获取原始图像以及与原始图像对应的原始问题文本,并利用视觉特征提取模型提取所述原始图像中包括图像特征;利用自然语言特征处理模型提取所述原始问题文本中包括的第一文本特征,并利用信息融合模型对所述图像特征以及第一文本特征进行融合,得到第一预测结果;利用概率簇重校准模型对所述第一预测结果进行校准,得到第二预测结果,并根据所述第二预测结果以及与所述原始图像以及所述原始问题文本对应的特征标签,构建第一损失函数;基于所述第一损失函数对待训练的视觉问答模型进行训练,得到训练完成的视觉问答模型。2.根据权利要求1所述的视觉问答模型的训练方法,其特征在于,所述视觉特征提取模型包括主干特征提取网络、颈部特征融合网络以及头部特征检测网络;其中,利用视觉特征提取模型提取所述原始图像中包括图像特征,包括:利用所述主干特征提取网络对所述原始图像进行下采样处理,得到第一局部特征;利用所述颈部特征融合网络对所述第一局部特征进行从深层到浅层、再从浅层到深层的双向融合,得到第一全局特征;利用所述头部特征检测网络对所述第一全局特征中包括的目标对象的类别信息以及位置信息进行检测,得到所述图像特征。3.根据权利要求2所述的视觉问答模型的训练方法,其特征在于,所述主干特征提取网络中包括CBM模块以及多个CSP模块,所述多个CSP模块包括第一个CSP模块、第二个CSP模块、第三个CSP模块、第四个CSP模块以及第五个CSP模块;其中,利用所述主干特征提取网络对所述原始图像进行下采样处理,得到第一局部特征,包括:利用所述CBM模块对所述原始图像进行卷积归一化以及激活处理,得到第一卷积特征图;利用所述第一个CSP模块对所述第一卷积特征图进行第一次下采样处理,得到第一次下采样结果,并利用所述第二个CSP模块对第一次下采样结果进行下采样,得到第二次下采样结果;利用第三个CSP模块、第四个CSP模块以及第五个CSP模块重复采样步骤,依次得到第三次下采样结果、第四次下采样结果以及第五次下采样结果,并将第五次下采样结果作为所述第一局部特征。4.根据权利要求3所述的视觉问答模型的训练方法,其特征在于,所述颈部特征融合网络包括SPP模块、多个CBL模块、多个上采样模块以及多个拼接模块,所述多个CBL模块包括第一个CBL模块、第二个CBL模块、
……
、第十二个CBL模块,所述多个上采样模块包括第一个上采样模块以及第二个上采样模块,所述多个拼接模块包括第一个拼接模块、第二个拼接模块、第三个拼接模块以及第四个拼接模块;其中,利用所述颈部特征融合网络对所述第一局部特征进行从深层到浅层、再从浅层到深层的双向融合,得到第一全局特征,包括:利用第一个CBL模块对所述第一局部特征进行卷积归一化以及激活处理,得到第二局
部特征,并利用所述SPP模块对所述第二局部特征进行多尺度融合处理,得到所述第二局部特征的上下文特征;利用第二个CBL模块对所述上下特征进行卷积归一化以及激活处理,得到第三局部特征,并利用第三个CBL模块对第三局部特征进行卷积归一化以及激活处理,得到第四局部特征;利用所述第一个上采样模块对所述第四局部特征进行上采样处理得到第一次上采样结果,并利用第四个CBL模块对所述第四次下采样结果进行卷积归一化以及激活处理;利用第一个拼接模块对第一次上采样结果以及卷积归一化以及激活处理后的第四次下采样结果进行拼接处理,得到第一拼接结果,并利用第五个CBL模块对第一拼接结果进行卷积归一化以及激活处理,得到第二拼接结果;利用第六个CBL模块对第二拼接结果进行卷积归一化以及激活处理,得到第三拼接结果,并利用第二个上采样模块对所述第三拼接结果进行上采样处理,得到第二次上采样结果;利用第七个CBL模块对所述第三次下采样结果进行卷积归一化以及激活处理,并利用第二个拼接模块对第二次上采样结果以及卷积归一化以及激活处理后的第三次下采样结果进行拼接,得到第四拼接结果;利用第八个CBL模块对第四拼接结果进行卷积归一化以及激活处理,得到具有第一预设尺度的第一全局特征,并利用第九个CBL模块对具有第一预设尺度的第一全局特征进行卷积归一化以及激活处理;利用第三个拼接模块对卷积归一化以及激活处理后的具有第一预设尺度的第一全局特征以及第三拼接结果进行拼接,得到第五拼接结果,并利用第十个CBL模块对第五拼接结果进行卷积归一化以及激活处理,得到具有第二预设尺度的第一全局特征;利用第十一个CBL模块对具有第二预设尺度的第一全局特征进行卷积归一化以及计划处理,并利用第四个拼接模块对所述第三局部特征以及卷积归一化以及激活处理后的具有第二预设尺度的第一全局特征进行拼接,得到第六拼接结果;利用第十二个CBL模块对第六拼接结果进行卷积归一化以及激活处理,得到具有第三预设尺度的第一全局特征。5.根据权利要求1所述的视觉问答模型的训练方法,其特征在于,所述自然语言特...

【专利技术属性】
技术研发人员:王昊
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1