【技术实现步骤摘要】
图像描述文字生成方法、装置及计算机可读存储介质
[0001]本申请涉及计算机
,具体而言,本申请涉及一种图像描述文字的获取方法、装置及计算机可读存储介质。
技术介绍
[0002]图像描述文字生成(Image Captioning)是一个融合计算机视觉、自然语言处理和机器学习的综合问题,其过程可以理解为将一幅图片翻译为一段描述文字。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容,而且需要用自然语言去表达它们之间的关系,另外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子。现有的图像描述文字生成方法存在计算开销大的问题,因此有必要对现有的图像描述文字生成方法进行改进。
技术实现思路
[0003]本申请的目的旨在至少能解决上述的技术缺陷之一,本申请实施例所提供的技术方案如下:
[0004]第一方面,本申请实施例提供了一种图像描述文字生成方法,包括:
[0005]获取目标图像的视觉特征;
[0006]基于目标图像的目标描述文字中的至 ...
【技术保护点】
【技术特征摘要】
1.一种图像描述文字生成方法,其特征在于,包括:获取目标图像的视觉特征;基于所述目标图像的目标描述文字中的至少一个已知词,获取对应的融合向量;基于所述视觉特征和所述融合向量,获取所述目标图像的图像描述文字。2.根据权利要求1所述的方法,其特征在于,所述基于所述目标图像的目标描述文字中的至少一个已知词,获取对应的融合向量,包括:将至少一个已知词的嵌入Embedding向量之和作为对应的融合向量。3.根据权利要求2所述的方法,其特征在于,所述至少一个已知词包含预设初始已知词。4.根据权利要求1所述的方法,其特征在于,所述基于所述视觉特征和所述融合向量,获取所述目标图像的图像描述文字,包括:基于所述视觉特征和所述融合向量,获取对应的新的已知词,并基于所述新的已知词和现有已知词,获取对应的新的融合向量,再次基于所述视觉特征和所述新的融合向量,获取对应的新的已知词;重复执行上述步骤,直至获取到所述图像描述文字对应的所有新的已知词;基于所有已知词,获取所述图像描述文字。5.根据权利要求4所述的方法,其特征在于,基于所述视觉特征和所述融合向量,获取对应的新的已知词,并基于所述新的已知词和至少一个现有已知词,获取对应的新的融合向量,再次基于所述视觉特征和所述新的融合向量,获取对应的新的已知词,包括:通过预训练的解码网络,基于所述视觉特征和所述融合向量,获取对应的新的已知词,并基于所述新的已知词和至少一个现有已知词,获取对应的新的融合向量,再次基于所述视觉特征和所述新的融合向量,获取对应的新的已知词。6.根据权利要求5所述的方法,其特征在于,所述解码网络包括第一解码模块,所述第一解码模块包括注意力计算模块和前馈模块,基于所述视觉特征和融合向量,获取对应的新的已知词,包括:通过所述注意力计算模块,基于所述融合向量对所述视觉特征进行注意力计算,得到对应的注意力特征;通过所述前馈模块,基于所述注意力特征,获取对应的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。