一种面向助盲场景的多特征快速推理的图像描述方法技术

技术编号:39763578 阅读:6 留言:0更新日期:2023-12-22 02:19
一种面向助盲场景的多特征快速推理的图像描述方法涉及图像描述技术领域

【技术实现步骤摘要】
一种面向助盲场景的多特征快速推理的图像描述方法


[0001]本专利技术涉及图像描述
,具体为一种面向助盲场景的多特征快速推理的图像描述方法


技术介绍

[0002]目前,助盲领域的研究依旧不够完善不够成熟,现有的方法主要集中在依靠计算机视觉

激光雷达以及多传感器融合等技术实现避障和导航,但是无法令视障人士充分理解环境信息

而图像描述技术可以根据场景图像自动生成一段自然语言描述提高视障人士对环境的理解,因此该技术在助盲领域具有广阔的实际应用价值和前景

[0003]图像描述技术的关键在于挖掘

提取和分析图像中的语义信息

目前,常用的图像描述技术采用编码器

解码器结构,其中编码器利用预训练的视觉特征提取器来编码图像,获取其中的语义信息,然后与已生成的部分文本信息一起送入解码器来生成文本描述

随着视觉特征提取器的不断改进,性能也在逐步提高

然而,仅仅依靠功能强大的视觉特征提取器的发展还不足以增强视觉内容的贡献

因此,一些技术提出了利用视觉内容预测包含高级语义的文本模态信息
(
如图中的主体

主体间关系

主体属性等
)
来增强视觉信息的方法

然而,这涉及到两个技术问题:首先,由于文本和视觉信息是异质的,仅依靠图像特征无法直接预测出高质量的文本;其次,带有高级语义的文本特征与图像特征的融合并不容易,在融合质量和复杂性之间需要权衡

[0004]现有的图像描述技术在大规模数据训练下取得了很好的表现,但是却缺乏对实际应用的考虑

大多数图像描述模型采用了区域特征和其他视觉特征融合的方式来增强视觉表示以获得更加精细的文本描述

因此,图像描述
的一个关键挑战是:多特征的应用导致了模型参数量

浮点运算次数的大量增加,降低了模型的推理速度,不利于实际的部署

图像描述技术在助盲场景的应用中往往需要在保障优秀性能的同时考虑到推理的实时性

[0005]基于此,本专利技术提供了一种面向助盲场景的多特征快速推理的图像描述方法,提高图像描述表现的同时降低模型的大小以及浮点运算次数


技术实现思路

[0006]为了解决上述技术问题,本专利技术提供了一种面向助盲场景的多特征快速推理的图像描述方法

[0007]为了解决上述技术问题,本专利技术采用如下技术方案:一种面向助盲场景的多特征快速推理的图像描述方法,通过图像描述网络模型,生成对应的文本描述,图像描述模型的训练过程包括以下步骤:
[0008]步骤1:使用深度卷积网络
ResNeXt152
提取图像网格特征并计算网格几何特征;对网格特征和几何特征就行求和并将其从二维展平到以为得到具有相对位置信息的网格特征
X
G

[0009]步骤2:图像的浅层补丁特征提取:用固定大小的窗口对原始输入图像进行划分,每个窗口展平为一维向量,所有向量构成图片的补丁特征
X
p
,使用一个线性层和一个
Transformer
块对其编码得到浅层补丁特征
X
S

[0010]步骤3:特征融合并编码得到最后视觉表示
Z
:使用自适应共享
Transformer
块融合具有相对位置信息的网格特征和浅层补丁特征,使用多个常规
Transformer
对融合特征进行编码得到最终视觉特征
Z

[0011]步骤4:预测输出:为视觉特征
Z
拼接一个任务自适应向量
S
得到初始化语义向量
T
,联合视觉特征输入到的解码器中,通过自注意力机制学习视觉信息和语义信息之间的浅在关系,并和语义向量
T
相加作为高级语义特征将视觉特征和高级语义特征作为
Transformer
解码块的输入,逐步生成文本描述
L

[l1,
l2,
...

l
n
],其中
l
i
是句子中的第
i
个单词的表示

[0012]步骤5:损失函数计算:定义图像描述损失函数为其中
CE
表示交叉熵损失,,
l
i
是句子中的第
i
个单词,
n
表示句子的长度,
p(l
i
|l1:
i
‑1)
代表生成第
i
个单词的概率

[0013]具体地,步骤1中网格特征的几何特征计算步骤包括:对于第
i
个网格,根据它的左上角坐标和右下角坐标计算它的中心坐标
(x
i

y
i
)
,网格的宽度
w
i
和高度
h
i
,然后根据中心坐标计算每个网格之间的位置关系向量,计算过程如下:
G
ij

FC(r
ij
)
其中
r
ij
表示网格
i
和网格
j
之间的位置关系,
(x
i

y
i
)

(x
j

y
j
)
分别为第
i
个网格和第
j
个网格的坐标,
FC
为全连接层;然后将所有网格之间的关系向量拼接到一起表示为
G
,输入到一个卷积层得到网格的几何特征
X
r

Conv(G)

[0014]具体地,步骤2中,将
X
p
输入到
Transformer
的执行过程如下:
X
S

LN(MHA(X
p

X
p

X
p
)+X
p
)

LN

Transformer
块中的层归一化操作,
MHA

Transformer
块中的多头注意力机制操作

[0015]具体地,步骤3中通过自适应共享
Transformer
块融合多特征的步骤包括:具有相对位置信息的网格本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种面向助盲场景的多特征快速推理的图像描述方法,通过图像描述网络模型,生成对应的文本描述;图像描述模型的训练过程,其特征在于,包括以下步骤:步骤1:使用深度卷积网络
ResNeXt152
提取图像网格特征并计算网格几何特征;对网格特征和几何特征就行求和并将其从二维展平到以为得到具有相对位置信息的网格特征
X
G
;步骤2:图像的浅层补丁特征提取:用固定大小的窗口对原始输入图像进行划分,每个窗口展平为一维向量,所有向量构成图片的补丁特征
X
p
,使用一个线性层和一个
Transformer
块对其编码得到浅层补丁特征
X
S
;步骤3:特征融合并编码得到最后视觉表示
Z
:使用自适应共享
Transformer
块融合具有相对位置信息的网格特征和浅层补丁特征,使用多个常规
Transformer
对融合特征进行编码得到最终视觉特征
Z
;步骤4:预测输出:为视觉特征
Z
拼接一个任务自适应向量
S
得到初始化语义向量
T
,联合视觉特征输入到的解码器中,通过自注意力机制学习视觉信息和语义信息之间的浅在关系,并和语义向量
T
相加作为高级语义特征将视觉特征和高级语义特征作为
Transformer
解码块的输入,逐步生成文本描述
K

[l1,l2,

,l
n
]
,其中
l
i
是句子中的第
i
个单词,
n
表示句子的长度;步骤5:损失函数计算:定义图像描述损失函数为其中
CE
表示交叉熵损失,
l
i
是句子中的第
i
个单词,
n
表示句子的长度,
p(l
i
|l
1:i
‑1)
代表生成第
i
个单词的概率
。2.
根据权利要求1所述的一种面向助盲场景的多特征快速推理的图像描述方法,其特征在于,步骤1中网格特征的几何特征计算步骤包括:对于第
i
个网格,根据它的左上角坐标和右下角坐标计算它的中心坐标
(x
i
,y
i
)
,网格的宽度
w
i
和高度
h
i
,然后根据中心坐标计算每个网格之间的位置关系向量,计算过程如下:
G
ij

FC(r
ij
)
其中
r
ij
表示网格
i
和网格
j
之间的位置关系,
(x
i
,y
i
)

(x
j
,y
j
)
分别为第
i
个网格和第
j
个网格的坐标;
FC
为全连接层;然后将所有网格之间的关系向量拼接到一起表示为
G
,输入到一个卷积层得到网格的几何特征
X
r

Conv(G)。...

【专利技术属性】
技术研发人员:曹政才石胤斌夏霁孙伊扬牟洪民马哲
申请(专利权)人:北京化工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1