训练样本构建方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号：46614387 阅读：0 留言：0更新日期：2025-10-14 21:11

本申请提供了一种训练样本构建方法、装置、电子设备和可读存储介质，应用于计算机技术领域。该方法包括：获取样本图像的多个键值对，根据多个键值对生成关于样本图像的多个问题，针对每个问题，基于样本图像和问题确定问题对应的答案，根据样本图像、多个问题和每个问题对应的答案，构建训练样本。本申请提供的方法，利用样本图像中包括的多个关键信息和每个关键信息的属性值生成样本图像的相关问题，样本图像中的关键信息通常较多，基于多个关键信息生成问题时，可以得到针对各个关键信息的不同问题，因此可以得到较为多样的问题，从而可以提高训练样本的问题多样性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，并且更具体地，涉及计算机中的一种训练样本构建方法、装置、电子设备和可读存储介质。

技术介绍

1、视觉问答（visual question answering，vqa）是一种跨模态的人工智能任务，旨在通过对图像内容的理解来回答与图像相关的自然语言问题，包括视觉识别、自然语言处理和推理等。当前主要基于有监督的机器学习来训练视觉问答模型，将大量的图像和围绕图像的问题和答案的示例作为训练样本，训练视觉问答模型学习如何根据图像内容对问题进行回答。

2、相关技术中，主要通过大型语言模型来（large language model，llm）生成问题来构造训练样本，但llm缺乏足够的视觉相关数据，在生成问题时，只能依赖有限的模式，缺乏多样性，可能会导致最终得到的训练样本出现问题多样性不足的情况。

技术实现思路

1、本申请提供了一种训练样本构建方法、装置、电子设备和可读存储介质，该方法能提高视觉问答场景中训练样本的问题多样性。

2、第一方面，提供了一种训练样本构建方

【技术保护点】

1.一种训练样本构建方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述多个键值对，生成关于所述样本图像的多个问题，包括：

3.如权利要求2所述的方法，其特征在于，所述确定多个问题属性，包括：

4.如权利要求1所述的方法，其特征在于，所述基于所述样本图像和所述问题确定所述问题对应的答案，包括：

5.如权利要求4所述的方法，其特征在于，所述控制训练后的所述第二模型基于所述样本图像和所述问题，生成所述问题对应的所述答案，包括：

6.如权利要求4所述的方法，其特征在于，在所述通过至少一个第二训练样本对...

【技术特征摘要】

1.一种训练样本构建方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述多个键值对，生成关于所述样本图像的多个问题，包括：

3.如权利要求2所述的方法，其特征在于，所述确定多个问题属性，包括：

4.如权利要求1所述的方法，其特征在于，所述基于所述样本图像和所述问题确定所述问题对应的答案，包括：

5.如权利要求4所述的方法，其特征在于，所述控制训练后的所述第二模型基于所述样本图像和所述问题，生成所述问题对应的所述答案，包括：

...

【专利技术属性】
技术研发人员：万一天，宋怡雯，
申请(专利权)人：口碑上海信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人