一种基于视觉语言大模型的图像问答数据获取方法技术

技术编号：41246852 阅读：4 留言：0更新日期：2024-05-09 23:56

本发明专利技术公开了一种基于视觉语言大模型的图像问答数据获取方法，包括获取图像数据集，并针对图像进行编码处理，获取图像嵌入；按照设定格式针对设定的提示数据进行编码处理，获取对应的提示嵌入；采用图像嵌入和提示嵌入，通过大语言模型，获取问答数据对和对应的预测概率向量；采问答数据对和对应的预测概率向量，通过指令评估器，获取问答数据对的评估得分；采用获取的问答数据对和真实问答数据对，通过计算交叉熵损失函数，优化大语言模型；采用评估得分和交叉熵损失函数，优化指令评估器；采用无问答数据标注的图像数据集，通过优化后的大语言模型和优化后的指令评估器，获取标注结果的图像问答数据；本发明专利技术方法的性能提升、效率增加、准确性增强。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，具体涉及一种基于视觉语言大模型的图像问答数据获取方法。

技术介绍

1、视觉语言大模型(large vision-language models,lvlms)在多模态视觉语言领域已经取得了巨大进展，核心思路是将视觉编码器集成到大语言模型(large languagemodels,llms)中，利用llms中卓越的语言理解能力，lvlms能够执行视觉对话、视觉定位、推理分割、图像生成和任意模态对话等任务；实现这些任务的核心技术之一是视觉指令微调，视觉指令微调主要通过创建指令跟随的问答样本来微调lvlms。

2、当前的研究中主要突出多模态视觉语言指令跟随数据的重要性，然而，人工标注大规模、高质量的多模态指令跟随数据面临着极大的挑战，利用类似gpt-4的机器生成指令跟随的样本需要较大的花费，同时，gpt-4生成指令数据依赖于图像的描述，无法创建描述中没有包含的问答数据。

3、当前已有研究者利用lvlms生成大规模、高质量的多模态指令跟随数据，这些方法主要集中在生成单轮视觉对话数据集方面，限制了生成指令数据的指令和多样性，此外，可利用的lvlms并不像llms一样具备较为完善的功能，已有的lvlms方法通常会生成不恰当的回答或者生成错误的信息，包括幻想。为了处理上述问题，视觉指令生成和修正方法vigc(visual instruction generation and correction)建立了视觉指令修正模块来重新生成回复，但是由于需要运行大语言模型两次，因此，也引入了计算负担。

4、综上所述，当前针对视觉语言大模型进行微调的大多数方法严重依赖于指令数据，大部分指令数据的构建严重依赖于图像的描述，而图像的描述限制了指令的内容范围。在基于图像的指令生成方面，现有模型存在性能较低、效率不高的问题。

技术实现思路

1、本专利技术的目的在于提供一种性能提升、效率增加、准确性增强的基于视觉语言大模型的图像问答数据获取方法。

2、本专利技术提供的这种基于视觉语言大模型的图像问答数据获取方法，包括如下步骤：

3、s1.获取图像数据集，并针对图像数据集中的图像进行编码处理，获取图像嵌入；

4、s2.按照设定格式针对设定的提示数据进行编码处理，获取对应的提示嵌入；

5、s3.采用步骤s1获取的图像嵌入和步骤s2获取的提示嵌入，通过大语言模型，获取问答数据对和对应的预测概率向量；

6、s4.采用步骤s3获取的问答数据对和对应的预测概率向量，通过指令评估器，获取问答数据对的评估得分；

7、s5.采用步骤s3获取的问答数据对和真实问答数据对，通过计算交叉熵损失函数，优化大语言模型；

8、s6.采用步骤s4获取的问答数据对的评估得分和步骤s5计算得到的交叉熵损失函数，优化指令评估器；

9、s7.采用无问答数据标注的图像数据集，通过步骤s5中优化后的大语言模型和步骤s6中优化后的指令评估器，获取标注结果的图像问答数据；

10、步骤s1所述的获取图像数据集，并针对图像数据集中的图像进行编码处理，获取图像嵌入，具体包括：

11、图像数据集包括原始图像i和视觉指令数据t；

12、采用图像编码器模型，针对原始图像i进行编码处理，获取对应的图像嵌入xi；

13、视觉指令数据t为真实的问答数据对，用于计算交叉熵损失函数；

14、步骤s2所述的按照设定格式针对设定的提示数据进行编码处理，获取对应的提示嵌入，具体包括：

15、采用如下所示的设定提示数据：

16、“generate multiple question-answer pairs based on theimage.requirement:the answer to each question must be found within the image,and the format is as follows:question:…[\n]answer:…[\n]”；

17、按照设定格式针对设定的提示数据进行编码处理，获取提示嵌入xprompt；

18、步骤s3所述的采用步骤s1获取的图像嵌入和步骤s2获取的提示嵌入，通过大语言模型，获取问答数据对和对应的预测概率向量，具体包括：

19、针对图像嵌入xi和提示嵌入xprompt进行拼接处理，通过大语言模型φl进行大语言分析处理，获取预测问答数据对和对应的预测概率向量；

20、采用下述公式表示输出的每个问答数据对中提示对应的预测概率向量v：

21、[xc,v]＝φl([xi,xprompt])

22、其中，xc表示生成的问题和对应问题的答案的对话数据；

23、步骤s4所述的采用步骤s3获取的问答数据对和对应的预测概率向量，通过指令评估器，获取问答数据对的评估得分，具体包括：

24、选择预测概率向量v，通过指令评估器ψ，获取问答数据对对应的评估得分，采用下述公式表示评估处理过程：

25、s＝ψ(v)

26、其中，s表示指令评估器的输出为问答数据对的评估得分；

27、指令评估器ψ为一个全连接的线性层，直接添加在大语言模型φl的输出层后，同时大语言模型φl的输出结果作为指令评估器ψ的输入；

28、全连接的线性层为一层的全连接网络(fully connected network)；

29、步骤s5所述的采用步骤s3获取的问答数据对和真实问答数据对，通过计算交叉熵损失函数，优化大语言模型，具体包括：

30、采用步骤s3获取的预测问答数据对和真实的问答数据对计算交叉熵损失函数；

31、其中，真实的问答数据对为步骤s1获取的视觉指令数据t；

32、在模型训练过程中，根据输出问答数据与真实的问答数据计算损失，并根据损失结果对模型进行优化；

33、采用下述公式表示生成目标对话数据xc的概率：

34、

35、其中，p(xc|xi,xprompt)表示大语言模型生成的对话数据对应的所有提示的概率乘积；pθ(·)表示大语言模型生成的其中一个提示的概率；xi表示模型执行过程中实时预测的提示；l表示输出问答对话内容的长度；θ表示可训练参数；xc,＜i表示xi之前所有的对话提示；

36、采用生成目标对话数据xc的概率p(xc|xi,xprompt)，确定预测数据的标签lm；同时，生成目标对话数据xc的概率p(xc|xi,xprompt)也作为指令评估器的输入；

37、通过计算大语言模型预测的对话数据提示的标签与真实对话数据提示的标签ln之间的交叉熵损失，完成模型的优化处理；

38、采用下述公式计算交叉熵损失：

39、

40、其中，lmt-vcg表示交叉熵损失；表示大语言模型本文档来自技高网...

【技术保护点】

1.一种基于视觉语言大模型的图像问答数据获取方法，包括如下步骤：

2.根据权利要求1所述的一种基于视觉语言大模型的图像问答数据获取方法，其特征在于步骤S1所述的获取图像数据集，并针对图像数据集中的图像进行编码处理，获取图像嵌入，具体包括：

3.根据权利要求2所述的一种基于视觉语言大模型的图像问答数据获取方法，其特征在于步骤S2所述的按照设定格式针对设定的提示数据进行编码处理，获取对应的提示嵌入，具体包括：

4.根据权利要求3所述的一种基于视觉语言大模型的图像问答数据获取方法，其特征在于步骤S3所述的采用步骤S1获取的图像嵌入和步骤S2获取的提示嵌入，通过大语言模型，获取问答数据对和对应的预测概率向量，具体包括：

5.根据权利要求4所述的一种基于视觉语言大模型的图像问答数据获取方法，其特征在于步骤S4所述的采用步骤S3获取的问答数据对和对应的预测概率向量，通过指令评估器，获取问答数据对的评估得分，具体包括：

6.根据权利要求5所述的一种基于视觉语言大模型的图像问答数据获取方法，其特征在于步骤S5所述的采用步骤S3获取的问答

7.根据权利要求6所述的一种基于视觉语言大模型的图像问答数据获取方法，其特征在于步骤S6所述的采用步骤S4获取的问答数据对的评估得分和步骤S5计算得到的交叉熵损失函数，优化指令评估器，具体包括：

8.根据权利要求7所述的一种基于视觉语言大模型的图像问答数据获取方法，其特征在于步骤S7所述的采用无问答数据标注的图像数据集，通过步骤S5中优化后的大语言模型和步骤S6中优化后的指令评估器，获取标注结果的图像问答数据，具体包括：

9.一种基于视觉语言大模型的图像问答数据获取方法，还包括如下步骤：

10.根据权利要求9所述的一种基于视觉语言大模型的图像问答数据获取方法，其特征在于步骤1)所述的获取开源LLaVA多模态大语言模型，并针对开源LLaVA多模态大语言模型进行微调处理，具体包括：

...

【技术特征摘要】

1.一种基于视觉语言大模型的图像问答数据获取方法，包括如下步骤：

2.根据权利要求1所述的一种基于视觉语言大模型的图像问答数据获取方法，其特征在于步骤s1所述的获取图像数据集，并针对图像数据集中的图像进行编码处理，获取图像嵌入，具体包括：

3.根据权利要求2所述的一种基于视觉语言大模型的图像问答数据获取方法，其特征在于步骤s2所述的按照设定格式针对设定的提示数据进行编码处理，获取对应的提示嵌入，具体包括：

4.根据权利要求3所述的一种基于视觉语言大模型的图像问答数据获取方法，其特征在于步骤s3所述的采用步骤s1获取的图像嵌入和步骤s2获取的提示嵌入，通过大语言模型，获取问答数据对和对应的预测概率向量，具体包括：

5.根据权利要求4所述的一种基于视觉语言大模型的图像问答数据获取方法，其特征在于步骤s4所述的采用步骤s3获取的问答数据对和对应的预测概率向量，通过指令评估器，获取问答数据对的评估得分，具体包括：

6.根据权利要求5所述的...

【专利技术属性】
技术研发人员：阚世超，张浩杰，岑丽辉，岑翼刚，谢永芳，
申请(专利权)人：中南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人