【技术实现步骤摘要】
一种基于Transformer结构的图像描述方法和装置
[0001]本专利技术属于图像描述
,具体涉及一种基于Transformer结构的图像描述方法和装置。
技术介绍
[0002]多模态深度学习旨在通过深度学习的方法实现处理和理解多源模态信息的能力。随着社会和经济的快速兴起,多模态深度学习已在社会生产中的各个方面有了众多应用,起到了非常瞩目的效果。目前比较热门的研究方向是图像、视频、音频和文本之间的多模态学习。
[0003]其中,采用自然语言对图像中的内容进行描述,被称为图像描述。语义不仅需要计算识别图像的对象和属性,还需要理解他们的关系,生成语法语义正确的自然语言。最早应用的图像描述方法主要有两种:一种是基于模板的方法,该方法预先设计描述模板,模板内空出诸如“主语、谓语、宾语”的位置,使用传统机器学习方法对图像进行特征提取,识别其中的实体目标、属性及实体目标之间的关系作为关键词,进而插入到模板内的空白中。另一种是基于检索的方法,该方法预先构建“图像
‑
描述”数据库,使用传统机器学习方法计算 ...
【技术保护点】
【技术特征摘要】
1.一种基于Transformer结构的图像描述方法,其特征在于,包括:采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量;其中,所述图像特征向量包括图像初始特征V
G
和图像全局特征V
g
;采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征V
G
和所述图像全局特征V
g
模态内的隐含关系实现特征增强,得到图像增强特征和图像增强全局特征采用基于Transformer结构的解码器对文本信息、所述图像增强特征以及所述图像增强全局特征进行特征融合,生成对应的图像描述并输出。2.根据权利要求1所述的基于Transformer结构的图像描述方法,其特征在于,采用swin Transformer基础编码器对原始图像信息进行编码,并提取图像特征向量,包括:将大小为H
×
W
×
C1的原始图像输入至swin Transformer基础编码器,输出大小为的第一图像特征向量;其中,H表示原始图像的高度,W表示原始图像的宽度,C1表示第一通道数量,C2表示第二通道数量,k表示原始图像的压缩比例;采用全连接层对所述第一图像特征向量进行投影降维,得到图像初始特征V
G
;其中,所述图像初始特征V
G
的大小为C3表示第三通道数量;采用平均池化层选取所述图像初始特征V
G
的平均值,将该平均值作为所述图像全局特征V
g
;其中,图像全局特征V
g
的大小为1
×
C3。3.根据权利要求1所述的基于Transformer结构的图像描述方法,其特征在于,采用基于Transformer结构的特征增强编码器分别捕获所述图像初始特征V
G
和所述图像全局特征V
g
模态内的隐含关系实现特征增强,得到图像增强特征和图像增强全局特征包括:将所述图像初始特征V
G
依次经过特征增强编码器的W
‑
MSA/SW
‑
MSA层、第一Add&LN层、第一FeedForward层以及第二Add&LN层进行处理,从而捕获所述图像初始特征V
G
模态内的隐含关系以进行特征增强,得到所述图像增强特征将所述图像全局特征V
g
依次经过特征增强编码器的MSA层、第三Add&LN层、第二FeedForward层以及第四Add&LN层进行处理,捕获所述图像全局特征V
g
模态内的隐含关系以进行特征增强,得到所述图像增强全局特征其中,所述图像初始特征V
G
和所述图像全局特征V
g
实现特征增...
【专利技术属性】
技术研发人员:ꢀ七四专利代理机构,
申请(专利权)人:北京中科明彦科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。