图像描述文字生成方法、装置及计算机可读存储介质制造方法及图纸

技术编号:34284743 阅读:37 留言:0更新日期:2022-07-27 08:10
本申请提供了一种图像描述文字生成方法、装置及计算机可读存储介质,其中方法包括:获取目标图像的视觉特征;基于目标图像的目标描述文字中的至少一个已知词,获取对应的融合向量;基于视觉特征和融合向量,获取目标图像的图像描述文字。其中,该方案的多个步骤都可以通过人工智能模块实现。该方案通过目标图像的图像描述文字中已知词获取对应的融合向量,再结合目标图像的视觉特征获取对应的新的已知词,进而根据这些词得到图像描述文字,该方案在生成图像描述文字过程中无需计算所有已知词与待预测词之间的注意力值,减小了计算开销。销。销。

【技术实现步骤摘要】
图像描述文字生成方法、装置及计算机可读存储介质


[0001]本申请涉及计算机
,具体而言,本申请涉及一种图像描述文字的获取方法、装置及计算机可读存储介质。

技术介绍

[0002]图像描述文字生成(Image Captioning)是一个融合计算机视觉、自然语言处理和机器学习的综合问题,其过程可以理解为将一幅图片翻译为一段描述文字。该任务对于人类来说非常容易,但是对于机器却非常具有挑战性,它不仅需要利用模型去理解图片的内容,而且需要用自然语言去表达它们之间的关系,另外,模型还需要能够抓住图像的语义信息,并且生成人类可读的句子。现有的图像描述文字生成方法存在计算开销大的问题,因此有必要对现有的图像描述文字生成方法进行改进。

技术实现思路

[0003]本申请的目的旨在至少能解决上述的技术缺陷之一,本申请实施例所提供的技术方案如下:
[0004]第一方面,本申请实施例提供了一种图像描述文字生成方法,包括:
[0005]获取目标图像的视觉特征;
[0006]基于目标图像的目标描述文字中的至少一个已知词,获取对本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种图像描述文字生成方法,其特征在于,包括:获取目标图像的视觉特征;基于所述目标图像的目标描述文字中的至少一个已知词,获取对应的融合向量;基于所述视觉特征和所述融合向量,获取所述目标图像的图像描述文字。2.根据权利要求1所述的方法,其特征在于,所述基于所述目标图像的目标描述文字中的至少一个已知词,获取对应的融合向量,包括:将至少一个已知词的嵌入Embedding向量之和作为对应的融合向量。3.根据权利要求2所述的方法,其特征在于,所述至少一个已知词包含预设初始已知词。4.根据权利要求1所述的方法,其特征在于,所述基于所述视觉特征和所述融合向量,获取所述目标图像的图像描述文字,包括:基于所述视觉特征和所述融合向量,获取对应的新的已知词,并基于所述新的已知词和现有已知词,获取对应的新的融合向量,再次基于所述视觉特征和所述新的融合向量,获取对应的新的已知词;重复执行上述步骤,直至获取到所述图像描述文字对应的所有新的已知词;基于所有已知词,获取所述图像描述文字。5.根据权利要求4所述的方法,其特征在于,基于所述视觉特征和所述融合向量,获取对应的新的已知词,并基于所述新的已知词和至少一个现有已知词,获取对应的新的融合向量,再次基于所述视觉特征和所述新的融合向量,获取对应的新的已知词,包括:通过预训练的解码网络,基于所述视觉特征和所述融合向量,获取对应的新的已知词,并基于所述新的已知词和至少一个现有已知词,获取对应的新的融合向量,再次基于所述视觉特征和所述新的融合向量,获取对应的新的已知词。6.根据权利要求5所述的方法,其特征在于,所述解码网络包括第一解码模块,所述第一解码模块包括注意力计算模块和前馈模块,基于所述视觉特征和融合向量,获取对应的新的已知词,包括:通过所述注意力计算模块,基于所述融合向量对所述视觉特征进行注意力计算,得到对应的注意力特征;通过所述前馈模块,基于所述注意力特征,获取对应的...

【专利技术属性】
技术研发人员:甘卓欣林科
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1