一种图文生成方法、装置、设备及存储介质制造方法及图纸

技术编号：37458136 阅读：21 留言：0更新日期：2023-05-06 09:30

本申请实施例提供一种图文生成方法、装置、设备及存储介质。在该方法中，可利用基于注意力机制的编码器提取目标图像的全局图像特征和多个图像块各自的局部图像特征，并利用语义识别模型，基于注意力机制，根据全局图像特征和多个图像块各自的局部特征，融合得到融合特征；根据融合特征，生成用于描述目标图像的目标文本。通过这种方式，一方面，可利用注意力机制，更高效地对图像特征进行提取，另一方面，可利用注意力机制，提高原始图像的信息和文本生成过程之间的耦合度，从而提升生成的文本与原始图像信息之间的匹配度。原始图像信息之间的匹配度。原始图像信息之间的匹配度。

全部详细技术资料下载

【技术实现步骤摘要】
一种图文生成方法、装置、设备及存储介质

[0001]本申请涉及计算机
，尤其涉及一种图文生成方法、装置、设备及存储介质。

技术介绍

[0002]图像中往往包含丰富的语义信息，比如图像中的目标、目标的属性以及不同目标之间的相互关系等等，这些语义信息往往可为机器人对话场景提供十分重要的辅助作用。因此，如何准确地基于图像得到相应的描述文本，已成为当下热门的研究方向。
[0003]现有技术中，通常可采用CNN(Convolutional Neural Network，卷积神经网络)结构的神经网络模型来挖掘图像中的语义信息，其中，可先将整张原始图像抽取为一个固定向量，然后将该向量作为一个初始化信息输入到模型中以生成相应的描述文本。但是，这种方式容易导致最终生成的描述文本与原始图像信息会存在较大偏差。因此，一种解决方案亟待提出。

技术实现思路

[0004]本申请的多个方面提供一种图文生成方法、装置、设备及存储介质，用以利用注意力机制，更高效地对图像特征进行提取并提高原始图像的信息和文本生成过程之间的耦合度，从而提升生成的文本与原始图像信息之间的匹配度。
[0005]本申请实施例提供一种图文生成方法，包括：获取目标图像；利用基于注意力机制的编码器，提取所述目标图像的图像特征；所述图像特征包括：全局图像特征和多个图像块各自的局部图像特征；利用语义识别模型，基于注意力机制，根据所述全局图像特征和所述多个图像块各自的局部特征，融合得到融合特征，并根据所述融合特征，生成用于描述所述目标图像的目标文本。...

【技术保护点】

【技术特征摘要】
1.一种图文生成方法，其特征在于，包括：获取目标图像；利用基于注意力机制的编码器，提取所述目标图像的图像特征；所述图像特征包括：全局图像特征和多个图像块各自的局部图像特征；利用语义识别模型，基于注意力机制，根据所述全局图像特征和所述多个图像块各自的局部特征，融合得到融合特征，并根据所述融合特征，生成用于描述所述目标图像的目标文本。2.根据权利要求1所述的方法，其特征在于，利用基于注意力机制的编码器，提取所述目标图像的图像特征，包括：利用所述编码器，对所述目标图像进行分割处理，得到多个图像块；基于注意力机制，分别对所述多个图像块进行特征提取，得到所述多个图像块各自的局部特征；根据所述多个图像块各自的局部特征，得到所述目标图像的全局特征。3.根据权利要求1所述的方法，其特征在于，利用语义识别模型，基于注意力机制，根据全局图像特征和多个图像块各自的局部图像，融合得到融合特征，包括：在所述语义识别模型的任一当前计算轮次中，获取所述当前计算轮次输入的记忆特征；所述记忆特征根据前一计算轮次输出的融合特征确定，或者，根据所述全局图像特征确定；根据所述记忆特征与所述多个图像块各自的局部图像特征进行融合计算，得到所述当前计算轮次的融合特征。4.根据权利要求3所述的方法，其特征在于，根据所述记忆特征与所述多个图像块各自的局部图像特征进行融合计算，得到所述当前计算轮次的融合特征，包括：根据所述记忆特征，确定所述多个图像块各自的局部特征对应的权重；根据所述多个图像块各自的局部特征以及所述多个图像块各自的局部特征对应的权重，对所述多个图像块各自的局部特征进行加权求和，得到所述当前计算轮次的融合特征。5.根据权利要求4所述的方法，其特征在于，根据所述记忆特征，确定所述多个图像块各自的局部特征对应的权重，包括：针对所述多个图像块的任一个图像块，计算所述记忆特征与所述图像块的局部特征的相似度；利用归一化指数函数，根据所述相似度，计算所述图像块...

【专利技术属性】
技术研发人员：张发展，
申请(专利权)人：达闼科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人