【技术实现步骤摘要】
一种面向助盲场景的多特征快速推理的图像描述方法
[0001]本专利技术涉及图像描述
,具体为一种面向助盲场景的多特征快速推理的图像描述方法
。
技术介绍
[0002]目前,助盲领域的研究依旧不够完善不够成熟,现有的方法主要集中在依靠计算机视觉
、
激光雷达以及多传感器融合等技术实现避障和导航,但是无法令视障人士充分理解环境信息
。
而图像描述技术可以根据场景图像自动生成一段自然语言描述提高视障人士对环境的理解,因此该技术在助盲领域具有广阔的实际应用价值和前景
。
[0003]图像描述技术的关键在于挖掘
、
提取和分析图像中的语义信息
。
目前,常用的图像描述技术采用编码器
‑
解码器结构,其中编码器利用预训练的视觉特征提取器来编码图像,获取其中的语义信息,然后与已生成的部分文本信息一起送入解码器来生成文本描述
。
随着视觉特征提取器的不断改进,性能也在逐步提高
。
然而,仅仅依靠功能强大的视觉特征提取器的发展还不足以增强视觉内容的贡献
。
因此,一些技术提出了利用视觉内容预测包含高级语义的文本模态信息
(
如图中的主体
、
主体间关系
、
主体属性等
)
来增强视觉信息的方法
。
然而,这涉及到两个技术问题:首先,由于文本和视觉信息是异质的,仅依靠图像特征无法直接预测出高质量的文本; ...
【技术保护点】
【技术特征摘要】
1.
一种面向助盲场景的多特征快速推理的图像描述方法,通过图像描述网络模型,生成对应的文本描述;图像描述模型的训练过程,其特征在于,包括以下步骤:步骤1:使用深度卷积网络
ResNeXt152
提取图像网格特征并计算网格几何特征;对网格特征和几何特征就行求和并将其从二维展平到以为得到具有相对位置信息的网格特征
X
G
;步骤2:图像的浅层补丁特征提取:用固定大小的窗口对原始输入图像进行划分,每个窗口展平为一维向量,所有向量构成图片的补丁特征
X
p
,使用一个线性层和一个
Transformer
块对其编码得到浅层补丁特征
X
S
;步骤3:特征融合并编码得到最后视觉表示
Z
:使用自适应共享
Transformer
块融合具有相对位置信息的网格特征和浅层补丁特征,使用多个常规
Transformer
对融合特征进行编码得到最终视觉特征
Z
;步骤4:预测输出:为视觉特征
Z
拼接一个任务自适应向量
S
得到初始化语义向量
T
,联合视觉特征输入到的解码器中,通过自注意力机制学习视觉信息和语义信息之间的浅在关系,并和语义向量
T
相加作为高级语义特征将视觉特征和高级语义特征作为
Transformer
解码块的输入,逐步生成文本描述
K
=
[l1,l2,
…
,l
n
]
,其中
l
i
是句子中的第
i
个单词,
n
表示句子的长度;步骤5:损失函数计算:定义图像描述损失函数为其中
CE
表示交叉熵损失,
l
i
是句子中的第
i
个单词,
n
表示句子的长度,
p(l
i
|l
1:i
‑1)
代表生成第
i
个单词的概率
。2.
根据权利要求1所述的一种面向助盲场景的多特征快速推理的图像描述方法,其特征在于,步骤1中网格特征的几何特征计算步骤包括:对于第
i
个网格,根据它的左上角坐标和右下角坐标计算它的中心坐标
(x
i
,y
i
)
,网格的宽度
w
i
和高度
h
i
,然后根据中心坐标计算每个网格之间的位置关系向量,计算过程如下:
G
ij
=
FC(r
ij
)
其中
r
ij
表示网格
i
和网格
j
之间的位置关系,
(x
i
,y
i
)
和
(x
j
,y
j
)
分别为第
i
个网格和第
j
个网格的坐标;
FC
为全连接层;然后将所有网格之间的关系向量拼接到一起表示为
G
,输入到一个卷积层得到网格的几何特征
X
r
=
Conv(G)。...
【专利技术属性】
技术研发人员:曹政才,石胤斌,夏霁,孙伊扬,牟洪民,马哲,
申请(专利权)人:北京化工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。