System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能,具体涉及一种基于视觉语言大模型的图像问答数据获取方法。
技术介绍
1、视觉语言大模型(large vision-language models,lvlms)在多模态视觉语言领域已经取得了巨大进展,核心思路是将视觉编码器集成到大语言模型(large languagemodels,llms)中,利用llms中卓越的语言理解能力,lvlms能够执行视觉对话、视觉定位、推理分割、图像生成和任意模态对话等任务;实现这些任务的核心技术之一是视觉指令微调,视觉指令微调主要通过创建指令跟随的问答样本来微调lvlms。
2、当前的研究中主要突出多模态视觉语言指令跟随数据的重要性,然而,人工标注大规模、高质量的多模态指令跟随数据面临着极大的挑战,利用类似gpt-4的机器生成指令跟随的样本需要较大的花费,同时,gpt-4生成指令数据依赖于图像的描述,无法创建描述中没有包含的问答数据。
3、当前已有研究者利用lvlms生成大规模、高质量的多模态指令跟随数据,这些方法主要集中在生成单轮视觉对话数据集方面,限制了生成指令数据的指令和多样性,此外,可利用的lvlms并不像llms一样具备较为完善的功能,已有的lvlms方法通常会生成不恰当的回答或者生成错误的信息,包括幻想。为了处理上述问题,视觉指令生成和修正方法vigc(visual instruction generation and correction)建立了视觉指令修正模块来重新生成回复,但是由于需要运行大语言模型两次,因此,也引入了计算负担。
...【技术保护点】
1.一种基于视觉语言大模型的图像问答数据获取方法,包括如下步骤:
2.根据权利要求1所述的一种基于视觉语言大模型的图像问答数据获取方法,其特征在于步骤S1所述的获取图像数据集,并针对图像数据集中的图像进行编码处理,获取图像嵌入,具体包括:
3.根据权利要求2所述的一种基于视觉语言大模型的图像问答数据获取方法,其特征在于步骤S2所述的按照设定格式针对设定的提示数据进行编码处理,获取对应的提示嵌入,具体包括:
4.根据权利要求3所述的一种基于视觉语言大模型的图像问答数据获取方法,其特征在于步骤S3所述的采用步骤S1获取的图像嵌入和步骤S2获取的提示嵌入,通过大语言模型,获取问答数据对和对应的预测概率向量,具体包括:
5.根据权利要求4所述的一种基于视觉语言大模型的图像问答数据获取方法,其特征在于步骤S4所述的采用步骤S3获取的问答数据对和对应的预测概率向量,通过指令评估器,获取问答数据对的评估得分,具体包括:
6.根据权利要求5所述的一种基于视觉语言大模型的图像问答数据获取方法,其特征在于步骤S5所述的采用步骤S3获取的问答
7.根据权利要求6所述的一种基于视觉语言大模型的图像问答数据获取方法,其特征在于步骤S6所述的采用步骤S4获取的问答数据对的评估得分和步骤S5计算得到的交叉熵损失函数,优化指令评估器,具体包括:
8.根据权利要求7所述的一种基于视觉语言大模型的图像问答数据获取方法,其特征在于步骤S7所述的采用无问答数据标注的图像数据集,通过步骤S5中优化后的大语言模型和步骤S6中优化后的指令评估器,获取标注结果的图像问答数据,具体包括:
9.一种基于视觉语言大模型的图像问答数据获取方法,还包括如下步骤:
10.根据权利要求9所述的一种基于视觉语言大模型的图像问答数据获取方法,其特征在于步骤1)所述的获取开源LLaVA多模态大语言模型,并针对开源LLaVA多模态大语言模型进行微调处理,具体包括:
...【技术特征摘要】
1.一种基于视觉语言大模型的图像问答数据获取方法,包括如下步骤:
2.根据权利要求1所述的一种基于视觉语言大模型的图像问答数据获取方法,其特征在于步骤s1所述的获取图像数据集,并针对图像数据集中的图像进行编码处理,获取图像嵌入,具体包括:
3.根据权利要求2所述的一种基于视觉语言大模型的图像问答数据获取方法,其特征在于步骤s2所述的按照设定格式针对设定的提示数据进行编码处理,获取对应的提示嵌入,具体包括:
4.根据权利要求3所述的一种基于视觉语言大模型的图像问答数据获取方法,其特征在于步骤s3所述的采用步骤s1获取的图像嵌入和步骤s2获取的提示嵌入,通过大语言模型,获取问答数据对和对应的预测概率向量,具体包括:
5.根据权利要求4所述的一种基于视觉语言大模型的图像问答数据获取方法,其特征在于步骤s4所述的采用步骤s3获取的问答数据对和对应的预测概率向量,通过指令评估器,获取问答数据对的评估得分,具体包括:
6.根据权利要求5所述的...
【专利技术属性】
技术研发人员:阚世超,张浩杰,岑丽辉,岑翼刚,谢永芳,
申请(专利权)人:中南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。