一种基于Transformer的自适应特征重构图像描述生成方法技术

技术编号:43860037 阅读:40 留言:0更新日期:2024-12-31 18:48
本发明专利技术公开了一种基于Transformer的自适应特征重构图像描述生成方法,包括如下:1)提取输入图像的网格特征;2)将提取的网格特征分别馈入特征重构模块和通道注意力模块;3)特征重构后的特征与通道注意力模块输出的特征进行融合,使用残差连接将特征图像输入至编码器中进行视觉特征编码;4)编码器输出特征与提取的语言特征一并馈入编码器中进行解码,得到隐含信息表示;5)将视觉特征、语言特征和进行融合,用来预测生成的单词。本发明专利技术采用自适应特征重构Transformer模型,通过特征重构模块和融合通道权重的自注意力编解码器两部分学习更加完整的视觉特征,同时增强特征筛选的能力,使图像字幕的匹配更加准确。

【技术实现步骤摘要】

本专利技术属于图像处理领域,具体地说,涉及一种基于transformer的自适应特征重构图像描述生成方法。


技术介绍

1、图像描述生成是一个结合计算机视觉和自然语言处理的研究领域,其目标是通过输入一张场景图像,经过计算机处理后生成一段描述该场景的自然语言文本。这个任务需要计算机学习图像与文字的对应关系,将图像中的视觉信息与文本信息对应起来,同时满足语法正确性与内容可读性的要求。图像描述生成的应用非常广泛,可以用于帮助盲人进行物体识别、辅助人们快速熟悉周边环境、实现文字检索图像的前置任务等。

2、随着科技发展和人民生活水平的提高,可以获取到大量的视频和图像信息。其中场景图像所含信息量丰富,使人产生直观感受,文本信息描述准确,可以精准捕捉所需信息。因此,如何将场景图像转换为所需文本信息是图像描述生成的关键问题。然而,图像描述生成存在着许多难点和挑战,例如描述错误或描述不够准确等问题。这是因为图像描述生成需要计算机同时处理图像和文本信息,并且需要深入理解图像中的内容,这需要计算机具有较强的视觉理解和自然语言处理能力。

3、为了解决这些问题本文档来自技高网...

【技术保护点】

1.一种基于Transformer的自适应特征重构图像描述生成方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于Transformer的自适应特征重构图像描述生成方法,其特征在于,步骤1)具体过程为:

3.根据权利要求1所述的一种基于Transformer的自适应特征重构图像描述生成方法,其特征在于,步骤2)具体包括以下步骤:

4.根据权利要求3所述的一种基于Transformer的自适应特征重构图像描述生成方法,其特征在于,步骤201)的具体过程为:

5.根据权利要求3所述的一种基于Transformer的自适应特征重构图...

【技术特征摘要】

1.一种基于transformer的自适应特征重构图像描述生成方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于transformer的自适应特征重构图像描述生成方法,其特征在于,步骤1)具体过程为:

3.根据权利要求1所述的一种基于transformer的自适应特征重构图像描述生成方法,其特征在于,步骤2)具体包括以下步骤:

4.根据权利要求3所述的一种基于transformer的自适应特征重构图像描述...

【专利技术属性】
技术研发人员:刘仲民曾贤强周云龙孙浩天毕研鑫喻学文闫星刘洋
申请(专利权)人:兰州理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1