【技术实现步骤摘要】
本申请涉及计算机视觉及文本生成,具体而言,涉及一种基于跨模态提示学习的可控图像描述方法及装置。
技术介绍
1、跨模态图像描述的生成任务有非常广泛的应用前景,跨模态是指涉及多个不同的模态之间的关系和交互。在计算机科学和人工智能领域,模态通常指的是不同的数据类型或表示方式,如图像、文本、语音、视频等。在当前跨模态领域中,根据图像生成对应的图像描述能够使得计算机理解输入图像的信息,从而自动生成相应的图像描述。提示学习指的是通过对模型给出相应的指令文本,让模型能够根据用户的要求进行相应的输出,满足人机对话的需求。
2、在现有技术中的跨模态图像描述生成方法都是仅能够输入图像,模型固定输出图像整体的描述,该描述通常概括性较强。这一类的方法虽然能够通过跨模态的方法实现图像描述生成,但不能与用户进行交互,不能够响应用户的特定需求,进而生成满足用户需求的图像描述文本。
技术实现思路
1、本申请的目的在于,为了克服现有的技术缺陷,提供了一种基于跨模态提示学习的可控图像描述方法及装置,不仅能够通过跨
...【技术保护点】
1.一种基于跨模态提示学习的可控图像描述方法,其特征在于,所述方法包括:
2.如权利要求1所述的可控图像描述方法,其特征在于,步骤S2、利用构建的标准映射模块和图像标签数据集构建图像内容编码器的步骤,包括:
3.如权利要求1或2所述的可控图像描述方法,其特征在于,标准映射模块的构建公式为:,其中是可学习的缩放参数,是可学习的平移参数,是输入特征的均值,非负实数是输入特征的标准差,为常数,是可学习的权重矩阵,是一个长度为m的可学习偏置项,m为输出特征的数量,是每个图像标签数据集中的图像。
4.如权利要求1所述的可控图像描述方法,其特征
...【技术特征摘要】
1.一种基于跨模态提示学习的可控图像描述方法,其特征在于,所述方法包括:
2.如权利要求1所述的可控图像描述方法,其特征在于,步骤s2、利用构建的标准映射模块和图像标签数据集构建图像内容编码器的步骤,包括:
3.如权利要求1或2所述的可控图像描述方法,其特征在于,标准映射模块的构建公式为:,其中是可学习的缩放参数,是可学习的平移参数,是输入特征的均值,非负实数是输入特征的标准差,为常数,是可学习的权重矩阵,是一个长度为m的可学习偏置项,m为输出特征的数量,是每个图像标签数据集中的图像。
4.如权利要求1所述的可控图像描述方法,其特征在于,步骤s3、根据图像内容编码器和图像标签数据集构建跨模态融合特征提取模块的步...
【专利技术属性】
技术研发人员:张诗涵,杨涵,李杰,
申请(专利权)人:成都索贝数码科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。