视觉问答模型的样本生成方法及相关设备技术

技术编号：38033307 阅读：5 留言：0更新日期：2023-06-30 10:59

本发明专利技术涉及人工智能技术领域，提供一种视觉问答模型的样本生成方法及相关设备，从图像的字幕标题中提取出候选答案集，候选答案集中还添加有默认答案，充分利用图像字幕数据集，使得用于训练视觉问答模型的样本数据集的扩充效果更理想，利用文本生成模型基于每个所述字幕标题及对应的所述候选答案集生成候选问题集；利用问答模型基于所述字幕标题及对应的所述候选问题集进行预测，得到预测答案集；最后通过所述候选答案集及所述预测答案集对所述候选问题集进行过滤，得到训练样本集，解决了视觉问答模型中训练数据缺乏的问题，保证生成后的样本数据集的质量更佳，使得基于生成的样本训练出的视觉问答模型更加鲁棒。样本训练出的视觉问答模型更加鲁棒。样本训练出的视觉问答模型更加鲁棒。

全部详细技术资料下载

【技术实现步骤摘要】
视觉问答模型的样本生成方法及相关设备

[0001]本专利技术涉及人工智能
，具体涉及一种视觉问答模型的样本生成方法、装置、电子设备及存储介质。

技术介绍

[0002]视觉问答(Visual Question Answering，VQA)是一个需要同时理解文本和视觉的热门领域。需要计算机算法构建的模型有一定的推理能力，相比传统计算机视觉任务有更高的要求。
[0003]专利技术人在实现本专利技术的过程中发现，现有的视觉问答系统主要依赖于人工标注训练样本，成本高，耗时长，且容易产生各种人类偏见等各种问题，导致基于人工标注的数据进行训练的视觉问答系统是很脆弱的，鲁棒性较差。

技术实现思路

[0004]鉴于以上内容，有必要提出一种视觉问答模型的样本生成方法、装置、电子设备及存储介质，能够解决智能视觉问答中训练数据缺乏的技术问题，并能够提高视觉问答的准确度。
[0005]本专利技术的第一方面提供一种视觉问答模型的样本生成方法，所述方法包括：
[0006]获取图像字幕数据集，所述图像字幕数据集的每个图像中包括字幕标题；
[0007]从每个所述图像的字幕标题中提取出候选答案集，所述候选答案集中包括默认答案；
[0008]利用文本生成模型基于每个所述字幕标题及对应的所述候选答案集生成候选问题集；
[0009]利用问答模型基于所述字幕标题及对应的所述候选问题集进行预测，得到预测答案集；
[0010]根据所述候选答案集及所述预测答案集对所述候选问题集进行过滤，得...

【技术保护点】

【技术特征摘要】
1.一种视觉问答模型的样本生成方法，其特征在于，所述方法包括：获取图像字幕数据集，所述图像字幕数据集的每个图像中包括字幕标题；从每个所述图像的字幕标题中提取出候选答案集，所述候选答案集中包括默认答案；利用文本生成模型基于每个所述字幕标题及对应的所述候选答案集生成候选问题集；利用问答模型基于所述字幕标题及对应的所述候选问题集进行预测，得到预测答案集；根据所述候选答案集及所述预测答案集对所述候选问题集进行过滤，得到训练样本集。2.如权利要求1所述的视觉问答模型的样本生成方法，其特征在于，所述利用文本生成模型基于每个所述字幕标题及对应的所述候选答案集生成候选问题集包括：对所述候选答案集中的多个候选答案进行遍历；将每次遍历的候选答案与所述字幕标题组合成文本数据对；将所述文本数据对输入预先训练的文本生成模型中，通过所述文本生成模型输出多个问题文本及每个所述问题文本对应的置信度；根据所述置信度从所述多个问题文本中选取目标问题文本，作为所述候选答案的候选问题；根据所述多个候选答案对应的候选问题生成候选问题集。3.如权利要求1或2所述的视觉问答模型的样本生成方法，其特征在于，所述根据所述候选答案集及所述预测答案集对所述候选问题集进行过滤，得到训练样本集包括：从所述候选答案集中任意选取一个候选答案，及从所述预测答案集中获取对应所述候选答案的预测答案；根据所述候选答案及对应的所述预测答案计算精确率和召回率；根据所述精确率和召回率计算得到模型评价值；判断所述模型评价值是否大于预设评价阈值；当所述模型评价值大于所述预设评价阈值，保留所述候选答案及对应的所述预测答案；当所述模型评价值小于所述预设评价阈值，剔除所述候选答案及对应的所述预测答案；根据保留的所述候选答案及对应的所述候选问题生成所述训练样本集。4.如权利要求3所述的视觉问答模型的样本生成方法，其特征在于，所述文本生成模型是基于WebQA数据集及手动生成的问题文本，对语言模型T5
‑
...

【专利技术属性】
技术研发人员：姜鹏，谯轶轩，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人