一种基于跨模态提示学习的可控图像描述方法及装置制造方法及图纸

技术编号：41534458 阅读：33 留言：0更新日期：2024-06-03 23:12

本申请涉及计算机视觉及文本生成技术领域，其公开了一种基于跨模态提示学习的可控图像描述方法及装置，首先获取多个图像数据集并对每个图像数据集中的每个图像分别打上内容标签组成图像标签对，得到图像标签数据集，其次利用构建的标准映射模块和图像标签数据集构建图像内容编码器，再根据图像内容编码器和图像标签数据集构建跨模态融合特征提取模块，最后将预测图像和指令要求输入至跨模态融合特征提取模块得到图像描述文本。本申请不仅能够通过跨模态的方法实现图像描述生成，还能够与用户进行交互，响应用户的特定需求，生成满足用户需求的图像描述文本。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机视觉及文本生成，具体而言，涉及一种基于跨模态提示学习的可控图像描述方法及装置。

技术介绍

1、跨模态图像描述的生成任务有非常广泛的应用前景，跨模态是指涉及多个不同的模态之间的关系和交互。在计算机科学和人工智能领域，模态通常指的是不同的数据类型或表示方式，如图像、文本、语音、视频等。在当前跨模态领域中，根据图像生成对应的图像描述能够使得计算机理解输入图像的信息，从而自动生成相应的图像描述。提示学习指的是通过对模型给出相应的指令文本，让模型能够根据用户的要求进行相应的输出，满足人机对话的需求。

2、在现有技术中的跨模态图像描述生成方法都是仅能够输入图像，模型固定输出图像整体的描述，该描述通常概括性较强。这一类的方法虽然能够通过跨模态的方法实现图像描述生成，但不能与用户进行交互，不能够响应用户的特定需求，进而生成满足用户需求的图像描述文本。

技术实现思路

1、本申请的目的在于，为了克服现有的技术缺陷，提供了一种基于跨模态提示学习的可控图像描述方法及装置，不仅能够通过跨...

【技术保护点】

1.一种基于跨模态提示学习的可控图像描述方法，其特征在于，所述方法包括：

2.如权利要求1所述的可控图像描述方法，其特征在于，步骤S2、利用构建的标准映射模块和图像标签数据集构建图像内容编码器的步骤，包括：

3.如权利要求1或2所述的可控图像描述方法，其特征在于，标准映射模块的构建公式为：，其中是可学习的缩放参数，是可学习的平移参数，是输入特征的均值，非负实数是输入特征的标准差，为常数，是可学习的权重矩阵，是一个长度为m的可学习偏置项，m为输出特征的数量，是每个图像标签数据集中的图像。

4.如权利要求1所述的可控图像描述方法，其特征在于，步骤S3、根据...

【技术特征摘要】

1.一种基于跨模态提示学习的可控图像描述方法，其特征在于，所述方法包括：

2.如权利要求1所述的可控图像描述方法，其特征在于，步骤s2、利用构建的标准映射模块和图像标签数据集构建图像内容编码器的步骤，包括：

4.如权利要求1所述的可控图像描述方法，其特征在于，步骤s3、根据图像内容编码器和图像标签数据集构建跨模态融合特征提取模块的步...

【专利技术属性】
技术研发人员：张诗涵，杨涵，李杰，
申请(专利权)人：成都索贝数码科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人