本申请实施例提供一种图文生成方法、装置、设备及存储介质。在该方法中,可利用基于注意力机制的编码器提取目标图像的全局图像特征和多个图像块各自的局部图像特征,并利用语义识别模型,基于注意力机制,根据全局图像特征和多个图像块各自的局部特征,融合得到融合特征;根据融合特征,生成用于描述目标图像的目标文本。通过这种方式,一方面,可利用注意力机制,更高效地对图像特征进行提取,另一方面,可利用注意力机制,提高原始图像的信息和文本生成过程之间的耦合度,从而提升生成的文本与原始图像信息之间的匹配度。原始图像信息之间的匹配度。原始图像信息之间的匹配度。
【技术实现步骤摘要】
一种图文生成方法、装置、设备及存储介质
[0001]本申请涉及计算机
,尤其涉及一种图文生成方法、装置、设备及存储介质。
技术介绍
[0002]图像中往往包含丰富的语义信息,比如图像中的目标、目标的属性以及不同目标之间的相互关系等等,这些语义信息往往可为机器人对话场景提供十分重要的辅助作用。因此,如何准确地基于图像得到相应的描述文本,已成为当下热门的研究方向。
[0003]现有技术中,通常可采用CNN(Convolutional Neural Network,卷积神经网络)结构的神经网络模型来挖掘图像中的语义信息,其中,可先将整张原始图像抽取为一个固定向量,然后将该向量作为一个初始化信息输入到模型中以生成相应的描述文本。但是,这种方式容易导致最终生成的描述文本与原始图像信息会存在较大偏差。因此,一种解决方案亟待提出。
技术实现思路
[0004]本申请的多个方面提供一种图文生成方法、装置、设备及存储介质,用以利用注意力机制,更高效地对图像特征进行提取并提高原始图像的信息和文本生成过程之间的耦合度,从而提升生成的文本与原始图像信息之间的匹配度。
[0005]本申请实施例提供一种图文生成方法,包括:获取目标图像;利用基于注意力机制的编码器,提取所述目标图像的图像特征;所述图像特征包括:全局图像特征和多个图像块各自的局部图像特征;利用语义识别模型,基于注意力机制,根据所述全局图像特征和所述多个图像块各自的局部特征,融合得到融合特征,并根据所述融合特征,生成用于描述所述目标图像的目标文本。
[0006]进一步可选地,利用基于注意力机制的编码器,提取所述目标图像的图像特征,包括:利用所述编码器,对所述目标图像进行分割处理,得到多个图像块;基于注意力机制,分别对所述多个图像块进行特征提取,得到所述多个图像块各自的局部特征;根据所述多个图像块各自的局部特征,得到所述目标图像的全局特征。
[0007]进一步可选地,利用语义识别模型,基于注意力机制,根据全局图像特征和多个图像块各自的局部图像,融合得到融合特征,包括:在所述语义识别模型的任一当前计算轮次中,获取所述当前计算轮次输入的记忆特征;所述记忆特征根据前一计算轮次输出的融合特征确定,或者,根据所述全局图像特征确定;根据所述记忆特征与所述多个图像块各自的局部图像特征进行融合计算,得到所述当前计算轮次的融合特征。
[0008]进一步可选地,根据所述记忆特征与所述多个图像块各自的局部图像特征进行融合计算,得到所述当前计算轮次的融合特征,包括:根据所述记忆特征,确定所述多个图像块各自的局部特征对应的权重;根据所述多个图像块各自的局部特征以及所述多个图像块各自的局部特征对应的权重,对所述多个图像块各自的局部特征进行加权求和,得到所述
当前计算轮次的融合特征。
[0009]进一步可选地,根据所述记忆特征,确定所述多个图像块各自的局部特征对应的权重,包括:针对所述多个图像块的任一个图像块,计算所述记忆特征与所述图像块的局部特征的相似度;利用归一化指数函数,根据所述相似度,计算所述图像块的局部特征对应的权重。
[0010]进一步可选地,所述编码器为CLIP编码器。
[0011]进一步可选地,根据所述融合特征,生成用于描述所述目标图像的目标文本,包括:利用所述语义识别模型,根据所述当前计算轮次的融合特征以及文本库中的文本单元的编码特征,确定所述当前计算轮次的融合特征对应的至少一个目标文本单元;按照设定的采样策略,对所述至少一个目标文本单元进行选取,得到所述当前计算轮次对应的目标文本单元。
[0012]本申请实施例还提供一种图文生成装置,包括:获取模块,用于:获取目标图像;提取模块,用于:利用基于注意力机制的编码器,提取所述目标图像的图像特征;所述图像特征包括:全局图像特征和多个图像块各自的局部图像特征;融合模块,用于:利用语义识别模型,基于注意力机制,根据所述全局图像特征和所述多个图像块各自的局部特征,融合得到融合特征,并根据所述融合特征,生成用于描述所述目标图像的目标文本。
[0013]进一步可选地,所述融合模块具体用于:在所述语义识别模型的任一当前计算轮次中,获取所述当前计算轮次输入的记忆特征;所述记忆特征根据前一计算轮次输出的融合特征确定,或者,根据所述全局图像特征确定;根据所述记忆特征与所述多个图像块各自的局部图像特征进行融合计算,得到所述当前计算轮次的融合特征。
[0014]本申请实施例还提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于:存储一条或多条计算机指令;所述处理器用于执行所述一条或多条计算机指令,以用于:执行所述图文生成方法中的步骤。
[0015]本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被处理器执行时,致使所述处理器能够实现所述图文生成方法中的步骤。
[0016]在本实施例中,可利用基于注意力机制的编码器提取目标图像的全局图像特征和多个图像块各自的局部图像特征,并利用语义识别模型,基于注意力机制,根据全局图像特征和多个图像块各自的局部特征,融合得到融合特征;根据融合特征,生成用于描述目标图像的目标文本。通过这种方式,一方面,可利用注意力机制,更高效地对图像特征进行提取,另一方面,可利用注意力机制,提高原始图像的信息和文本生成过程之间的耦合度,从而提升生成的文本与原始图像信息之间的匹配度。
附图说明
[0017]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0018]图1为本申请一示例性实施例提供的图文生成方法的流程示意图;
[0019]图2为本申请一示例性实施例提供的图文生成方法的另一流程示意图;
[0020]图3为本申请一示例性实施例提供的图文生成方法的又一流程示意图;
[0021]图4为本申请一示例性实施例提供的图文生成装置的示意图;
[0022]图5为本申请一示例性实施例提供的电子设备的示意图。
具体实施方式
[0023]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0024]现有技术中,通常可采用CNN(Convolutional Neural Network,卷积神经网络)结构的神经网络模型来挖掘图像中的语义信息,其中,可先将整张原始图像抽取为一个固定向量,然后将该向量作为一个初始化信息输入到模型中以生成相应的描述文本。但是,这种方式容易导致最终生成的描述文本与原始图像信息会存在较大偏差。
[0025]针对上述现有技术存在的技术问题,本申请提供了一种解决方案,以下将结合附图,详细说明本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种图文生成方法,其特征在于,包括:获取目标图像;利用基于注意力机制的编码器,提取所述目标图像的图像特征;所述图像特征包括:全局图像特征和多个图像块各自的局部图像特征;利用语义识别模型,基于注意力机制,根据所述全局图像特征和所述多个图像块各自的局部特征,融合得到融合特征,并根据所述融合特征,生成用于描述所述目标图像的目标文本。2.根据权利要求1所述的方法,其特征在于,利用基于注意力机制的编码器,提取所述目标图像的图像特征,包括:利用所述编码器,对所述目标图像进行分割处理,得到多个图像块;基于注意力机制,分别对所述多个图像块进行特征提取,得到所述多个图像块各自的局部特征;根据所述多个图像块各自的局部特征,得到所述目标图像的全局特征。3.根据权利要求1所述的方法,其特征在于,利用语义识别模型,基于注意力机制,根据全局图像特征和多个图像块各自的局部图像,融合得到融合特征,包括:在所述语义识别模型的任一当前计算轮次中,获取所述当前计算轮次输入的记忆特征;所述记忆特征根据前一计算轮次输出的融合特征确定,或者,根据所述全局图像特征确定;根据所述记忆特征与所述多个图像块各自的局部图像特征进行融合计算,得到所述当前计算轮次的融合特征。4.根据权利要求3所述的方法,其特征在于,根据所述记忆特征与所述多个图像块各自的局部图像特征进行融合计算,得到所述当前计算轮次的融合特征,包括:根据所述记忆特征,确定所述多个图像块各自的局部特征对应的权重;根据所述多个图像块各自的局部特征以及所述多个图像块各自的局部特征对应的权重,对所述多个图像块各自的局部特征进行加权求和,得到所述当前计算轮次的融合特征。5.根据权利要求4所述的方法,其特征在于,根据所述记忆特征,确定所述多个图像块各自的局部特征对应的权重,包括:针对所述多个图像块的任一个图像块,计算所述记忆特征与所述图像块的局部特征的相似度;利用归一化指数函数,根据所述相似度,计算所述图像块...
【专利技术属性】
技术研发人员:张发展,
申请(专利权)人:达闼科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。