视觉问答模型的训练方法、答案生成方法及相关装置制造方法及图纸

技术编号：37604655 阅读：30 留言：0更新日期：2023-05-18 11:56

本说明书实施方式提供了一种视觉问答模型的训练方法、答案生成方法及相关装置。该方法通过获取样本实例和与所述样本实例对应的扩展实例集；其中，样本实例至少包括样本图像和样本问题；扩展实例集中包括多个扩展实例；扩展实例至少包括扩展问题和扩展图像；将所述样本实例和所述扩展实例集中扩展实例分别输入视觉问答模型得到相应的预测结果；根据所述样本实例的预测结果和所述扩展实例的预测结果构建差异损失；差异损失随着所述样本实例的预测结果与所述扩展实例的预测结果之间的差异度增大而减小；根据差异损失调整所述视觉问答模型。以提高视觉问答模型的答案预测准确率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
视觉问答模型的训练方法、答案生成方法及相关装置

[0001]本说明书中实施方式关于人工智能领域，具体涉及一种视觉问答模型的训练方法、装置、设备和存储介质。

技术介绍

[0002]视觉问答是一种结合计算机视觉和自然语言处理的技术。计算机视觉主要是对给定图像进行处理，包括图像识别、图像分类等任务；自然语言处理主要是对文本形式的内容进行处理及理解，包括机器翻译、信息检索、生成文本等任务。视觉问答需要对给定图像和问题进行处理，从图像、问题中提取特征，结合这些特征生成答案，是需要理解视觉和文本的新领域。
[0003]目前，主要采用机器学习模型来实现视觉问答，然而，现有的视觉问答模型对基于图像答案的预测准确率较低。

技术实现思路

[0004]本说明书中实施方式提供一种视觉问答模型的训练方法、装置、设备和存储介质。可以一定程度上提升视觉问答模型的预测结果的准确性。
[0005]本说明书一个实施方式提供一种视觉问答模型的训练方法，包括：
[0006]获取样本实例和与所述样本实例对应的扩展实例集；其中，...

【技术保护点】

【技术特征摘要】
1.一种视觉问答模型的训练方法，其特征在于，包括：获取样本实例和与所述样本实例对应的扩展实例集；其中，所述样本实例包括样本图像和样本问题；所述扩展实例集中包括多个扩展实例；扩展实例包括扩展问题和扩展图像；所述多个扩展实例包括第一类扩展实例和第二类扩展实例中任意一个或多个，所述第一类扩展实例对应的扩展问题与所述样本实例的样本问题相似，所述第一类扩展实例对应的扩展图像与所述样本图像相同；所述第二类扩展实例对应的扩展问题与所述样本实例对应的样本问题相同，且所述第二类扩展实例对应的扩展图像与所述样本图像不相同；将所述样本实例和所述扩展实例集中多个扩展实例分别输入视觉问答模型，得到所述样本实例对应的预测结果和每个扩展实例对应的预测结果；根据所述样本实例的预测结果以及每个扩展实例对应的预测结果计算所述视觉问答模型的差异损失；其中，所述差异损失随着所述样本实例的预测结果与所述扩展实例的预测结果之间的差异度增大而减小；根据所述差异损失调整所述视觉问答模型。2.根据权利要求1所述的方法，其特征在于，所述样本实例的预测结果和所述每个扩展实例的预测结果分别包括答案集中各个答案作为预测答案的概率；所述答案集中至少包括所述样本实例对应的样本答案；所述样本实例的预测结果包括的概率和所述每个扩展实例的预测结果包括的概率，分别形成多维度概率向量；所述方法还包括：根据所述样本实例的预测结果的多维度概率向量，在所述样本实例的预测结果中确定目标维度；所述根据所述样本实例的预测结果和所述每个扩展实例的预测结果计算差异损失，包括：基于所述样本实例的预测结果中目标维度的概率，和所述每个扩展实例的预测结果中目标维度的概率之间的差值，生成差异损失。3.根据权利要求2所述的方法，其特征在于，所述基于所述样本实例的预测结果中目标维度的概率，和所述每个扩展实例的预测结果中目标维度的概率之间的差值，生成所述视觉问答模型的差异损失，包括：分别计算所述样本实例的预测结果中目标维度的概率，与每个扩展实例的预测结果中目标维度的概率之间的差值；分别对所述差值进行对数运算，得到中间值；以每个扩展实例的预测结果中目标维度的概率作为调节因子，分别计算调节因子与相应扩展实例对应的中间值的乘积结果；对计算得到的乘积结果进行累加运算，得到所述视觉问答模型的差异损失。4.根据权利要求3所述的方法，其特征在于，所述样本实例为多个样本实例中任意一个；所述基于所述样本实例的预测结果中目标维度的概率，和所述每个扩展实例的预测结果中目标维度的概率之间的差值，生成所述视觉问答模型的差异损失，包括：基于所述样本实例的预测结果中目标维度的概率，和所述每个扩展实例的预测结果中目标维度的概率之间的差值，生成所述样本实例对应的差异损失函数；获取所述多个样本实例中除所述样本实例外，其他样本实例对应的差异损失函数；计算所述多个样本实例对应的差异损失的均值，并将所述均值作为所述视觉...

【专利技术属性】
技术研发人员：赵宏宇，吴一可，赵钰，张莹，袁晓洁，蒋宁，
申请(专利权)人：南开大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人