【技术实现步骤摘要】
本专利技术涉及人工智能和计算语言学交叉,尤其涉及一种基于优化算法的视觉-语言模型图文对精准评测数据构建方法,适用于图像生成、跨模态检索、人物属性识别等任务的评测数据自动化优化生成。
技术介绍
1、现有视觉-语言模型的评测数据构建多依赖人工标注,存在成本高、覆盖率低、多样性不足等问题。传统自动化方法生成的图文对常出现语义偏差或内容缺失,难以满足精准评测需求。此外,现有技术缺乏对多维度指标(如匹配度、多样性、覆盖率)的系统化优化,导致评测数据质量参差不齐。本专利技术根据目标任务(如人物属性检索)构建原始图片集,并进行标准化处理,利用预训练模型(如clip)提取初始提示词,通过大语言模型(如gpt-4)增强语义准确性和多样性,结合跨模态相似度、目标检测和算法迭代优化图文对,通过双盲评审确保数据质量,最终形成分类存储的评测数据集。
技术实现思路
1、本专利技术的目的是克服现有技术的不足,提供一种适应性强、效率高的基于优化算法的视觉-语言模型图文对精准评测数据构建方法,该方法提升了图文对的语义匹配精
...【技术保护点】
1.一种基于优化算法的视觉-语言模型图文对精准评测数据构建方法,其特征在于,所述的方法包括以下步骤:
2.根据权利要求1所述的基于优化算法的视觉-语言模型图文对精准评测数据构建方法,其特征在于,所述的步骤(1)中的原始图片集合构建包括以下操作:
3.根据权利要求2所述的基于优化算法的视觉-语言模型图文对精准评测数据构建方法,其特征在于,所述的步骤(2)中预训练的视觉-语言模型具有以图生成提示词的能力,其文本解码器采用自注意力机制生成包含对象、属性、场景的三元组结构化提示词,具体处理过程包括:
4.根据权利要求3所述的基于优化算法的视
...【技术特征摘要】
1.一种基于优化算法的视觉-语言模型图文对精准评测数据构建方法,其特征在于,所述的方法包括以下步骤:
2.根据权利要求1所述的基于优化算法的视觉-语言模型图文对精准评测数据构建方法,其特征在于,所述的步骤(1)中的原始图片集合构建包括以下操作:
3.根据权利要求2所述的基于优化算法的视觉-语言模型图文对精准评测数据构建方法,其特征在于,所述的步骤(2)中预训练的视觉-语言模型具有以图生成提示词的能力,其文本解码器采用自注意力机制生成包含对象、属性、场景的三元组结构化提示词,具体处理过程包括:
4.根据权利要求3所述的基于优化算法的视觉-语言模型图文对精准评测数据构建方法,其特征在于,所述的步骤(3)中预设的提示词模板库的构建方法包括:
5.根据权利要求4所述的基于优化算法的...
【专利技术属性】
技术研发人员:王立,夏嫣,李小凡,王晓璐,成云飞,
申请(专利权)人:公安部第三研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。