零样本图像文本描述自动生成方法、装置、设备和介质制造方法及图纸

技术编号:41533175 阅读:32 留言:0更新日期:2024-06-03 23:10
本申请涉及一种零样本图像文本描述自动生成方法、装置、设备和介质。包括:对获取的文本数据进行处理,得到文本局部信号及文本嵌入;通过层级映射器对文本嵌入进行处理,得到文本全局信号;将文本局部信号与文本全局信号进行拼接后输入语言模型进行自回归语言建模训练后;将训练好的层级映射器与语言模型进行固定;获取待测试图像的类别信息,基于熵的检索策略对类别信息的逻辑值进行修正,获取图像局部信号;提取待测试图像的图像特征,将图像特征输入固定后的层级映射器进行处理,得到图像全局信号;将图像局部信号与图像全局信号进行拼接后输入固定后的语言模型,得到待测试图像的文本描述。本发明专利技术能够准确描述新颖的未见过物体和场景。

【技术实现步骤摘要】

本申请涉及信息处理,特别是涉及一种零样本图像文本描述自动生成方法、装置、设备和介质


技术介绍

1、图像文本描述生成旨在自动地为图像生成流畅的描述性文本句子,该任务在视觉语言理解中起着至关重要的作用。自2014年以来,得益于深度神经网络的革命性发展,图像文本描述生成在复杂且具有挑战性的基准测试中取得了突破性进展。尽管完全监督的图像文本描述生成模型,在标准评估指标上表现地十分出色,但这类模型依赖于大量的图像文本标注数据(如mscoco)进行训练。然而,构建一个数量庞大的、涵盖不同领域和风格的图像文本描述数据集需要耗费大量人力、物力和财力。此外,完全监督的图像文本描述生成模型在源域上训练好之后,它们很难在与源域的数据分布不同的目标域中同样地表现出色,从而限制了这类模型的实际应用性。因此,在图像文本对数据无法获取的真实场景中实现图像文本描述生成是非常必要的。通常情况下,人类可以根据自己的经验,从先前未接触过的新事物中快速获取有用信息,这种能力被称为零样本学习(zero-shot learning)。它的一大特点就是:可以在没有提供新事物数据的情况下,仅凭特征描述本文档来自技高网...

【技术保护点】

1.一种零样本图像文本描述自动生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的零样本图像文本描述自动生成方法,其特征在于,对所述文本数据进行处理,得到文本局部信号及文本嵌入,包括:

3.根据权利要求2所述的零样本图像文本描述自动生成方法,其特征在于,通过层级映射器对所述文本嵌入进行处理,得到文本全局信号,过程表示为:

4.根据权利要求1至3任一项所述的零样本图像文本描述自动生成方法,其特征在于,基于熵的检索策略对所述类别信息的逻辑值进行修正,获取图像局部信号,包括:

5.根据权利要求4所述的零样本图像文本描述自动生成方法,其特...

【技术特征摘要】

1.一种零样本图像文本描述自动生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的零样本图像文本描述自动生成方法,其特征在于,对所述文本数据进行处理,得到文本局部信号及文本嵌入,包括:

3.根据权利要求2所述的零样本图像文本描述自动生成方法,其特征在于,通过层级映射器对所述文本嵌入进行处理,得到文本全局信号,过程表示为:

4.根据权利要求1至3任一项所述的零样本图像文本描述自动生成方法,其特征在于,基于熵的检索策略对所述类别信息的逻辑值进行修正,获取图像局部信号,包括:

5.根据权利要求4所述的零样本图像文本描述自动生成方法,其特征在于,将所述图像特征输入固定后的层级映射器进行处理,得到图像全局信号,过程表示为:

6.根据...

【专利技术属性】
技术研发人员:谢毓湘闫洁邹诗苇孟益辉卢仟琪魏迎梅蒋杰康来陈妍
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1