视觉语言模型训练方法、设备、介质和计算机程序产品技术

技术编号：42497569 阅读：35 留言：0更新日期：2024-08-22 14:08

本发明专利技术公开了一种视觉语言模型训练方法、设备、介质和计算机程序产品，涉及人工智能技术领域，该方法包括：利用可学习提示器获取不同类别的图像的可学习提示词，对不同类别的可学习提示词进行编码得到第一文本编码；获取不同类别的图像的预设提示词融合外部知识之后的第二文本编码；基于相同类别对应的第一文本编码和第二文本编码计算第一损失值；利用视觉提取器提取不同类别的图像在视觉层面上的视觉编码，基于相同类别对应的第一文本编码和视觉编码计算第二损失值；基于第一损失值与第二损失值的和计算整体损失值，并基于整体损失值训练可学习提示器和视觉提取器得到训练完成的视觉语言模型。本发明专利技术提高了视觉语言模型的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，更具体地说，涉及一种视觉语言模型训练方法、设备、介质和计算机程序产品。

技术介绍

1、视觉语言模型（visual language model，vlm）通过学习图像与文本之间的关系在多种视觉和语言任务上展现了卓越的性能，例如图像分类、图像生成、图像检索以及自然语言描述图像等。在相关技术中，采用已标记的大量的图文对训练视觉语言模型，而在下游任务中，未参与训练的类别的泛化性能差。

2、因此，如何提高视觉语言模型的泛化能力是本领域技术人员需要解决的技术问题。

技术实现思路

1、本专利技术的目的在于提供一种视觉语言模型训练方法、设备、介质和计算机程序产品，提高了视觉语言模型的泛化能力。

2、为实现上述目的，本专利技术提供了一种视觉语言模型训练方法，包括：

3、利用视觉语言模型中的可学习提示器获取不同类别的图像的可学习提示词，对不同类别的可学习提示词进行编码得到第一文本编码；

4、获取不同类别的图像的预设提示词融合外部知识之后的

【技术保护点】

1.一种视觉语言模型训练方法，其特征在于，包括：

2.根据权利要求1所述视觉语言模型训练方法，其特征在于，获取不同类别的图像的预设提示词融合外部知识之后的第二文本编码，包括：

3.根据权利要求2所述视觉语言模型训练方法，其特征在于，基于所述第一中间文本编码和所述第二中间文本编码确定所述外部知识库中与所述预设提示词相关的特征表示，包括：

4.根据权利要求2所述视觉语言模型训练方法，其特征在于，融合相同类别对应的第一中间文本编码和特征表示得到对应类别的第二文本编码，包括：

5.根据权利要求2所述视觉语言模型训练方法，其特征在于，所述图像的预设提...

【技术特征摘要】

1.一种视觉语言模型训练方法，其特征在于，包括：

2.根据权利要求1所述视觉语言模型训练方法，其特征在于，获取不同类别的图像的预设提示词融合外部知识之后的第二文本编码，包括：

4.根据权利要求2所述视觉语言模型训练方法，其特征在于，融合相同类别对应的第一中间文本编码和特征表示得到对应类别的第二文本编码，包括：

5.根据权利要求2所述视觉语言模型训练方法，其特征在于，所述图像的预设提示词为所述图像的类别。

6.根据权利要求1所述视觉语言模型训练方法，其特征在于，利用所述视觉语言模型中的视觉提取器提取不同类别的图像在视觉层面上的视觉编码，包括：

7.根据权利要求6所述视觉语言模型训练方法，其特征在于，利用所述视觉语言模型中的视觉提取器提取不同类别的图像的高频特征，包括：

8.根据权利要求6所述视觉语...

【专利技术属性】
技术研发人员：金良，赵雅倩，杜国光，闫瑞栋，贾麒，徐聪，范宝余，姜金哲，
申请(专利权)人：山东海量信息技术研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人