基于优化算法的视觉-语言模型图文对精准评测数据构建方法技术

技术编号：46623109 阅读：0 留言：0更新日期：2025-10-14 21:18

本发明专利技术涉及一种基于优化算法的视觉‑语言模型图文对精准评测数据构建方法，该方法首先通过公开数据集筛选、实时设备采集或深度生成的方式，构建原始图片集合，依托预训练视觉‑语言模型反向生成初始提示词；结合构建的提示词模板，利用大语言模型对初始提示词进行优化，生成与图片高度匹配的提示词；随后，通过多维度评估函数对图文对数据进行优化处理，并对优化后的数据集进行人工校验，剔除低质量或重复的图文对，最终构建高质量的视觉‑语言模型评测数据集。本发明专利技术采用优化算法迭代提升图文对数据的匹配度和多样性，显著提高了评测数据的精准性和覆盖范围，可广泛应用于图像生成、视觉问答、跨模态检索等任务的模型性能评测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能和计算语言学交叉，尤其涉及一种基于优化算法的视觉-语言模型图文对精准评测数据构建方法，适用于图像生成、跨模态检索、人物属性识别等任务的评测数据自动化优化生成。

技术介绍

1、现有视觉-语言模型的评测数据构建多依赖人工标注，存在成本高、覆盖率低、多样性不足等问题。传统自动化方法生成的图文对常出现语义偏差或内容缺失，难以满足精准评测需求。此外，现有技术缺乏对多维度指标(如匹配度、多样性、覆盖率)的系统化优化，导致评测数据质量参差不齐。本专利技术根据目标任务(如人物属性检索)构建原始图片集，并进行标准化处理，利用预训练模型(如clip)提取初始提示词，通过大语言模型(如gpt-4)增强语义准确性和多样性，结合跨模态相似度、目标检测和算法迭代优化图文对，通过双盲评审确保数据质量，最终形成分类存储的评测数据集。

技术实现思路

1、本专利技术的目的是克服现有技术的不足，提供一种适应性强、效率高的基于优化算法的视觉-语言模型图文对精准评测数据构建方法，该方法提升了图文对的语义匹配精...

【技术保护点】

1.一种基于优化算法的视觉-语言模型图文对精准评测数据构建方法，其特征在于，所述的方法包括以下步骤：

2.根据权利要求1所述的基于优化算法的视觉-语言模型图文对精准评测数据构建方法，其特征在于，所述的步骤(1)中的原始图片集合构建包括以下操作：

3.根据权利要求2所述的基于优化算法的视觉-语言模型图文对精准评测数据构建方法，其特征在于，所述的步骤(2)中预训练的视觉-语言模型具有以图生成提示词的能力，其文本解码器采用自注意力机制生成包含对象、属性、场景的三元组结构化提示词，具体处理过程包括：

4.根据权利要求3所述的基于优化算法的视觉-语言模型图文对精...

【技术特征摘要】

1.一种基于优化算法的视觉-语言模型图文对精准评测数据构建方法，其特征在于，所述的方法包括以下步骤：

2.根据权利要求1所述的基于优化算法的视觉-语言模型图文对精准评测数据构建方法，其特征在于，所述的步骤(1)中的原始图片集合构建包括以下操作：

4.根据权利要求3所述的基于优化算法的视觉-语言模型图文对精准评测数据构建方法，其特征在于，所述的步骤(3)中预设的提示词模板库的构建方法包括：

5.根据权利要求4所述的基于优化算法的...

【专利技术属性】
技术研发人员：王立，夏嫣，李小凡，王晓璐，成云飞，
申请(专利权)人：公安部第三研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人