一种语言引导的多粒度特征融合目标分割方法及系统技术方案

技术编号:36983929 阅读:15 留言:0更新日期:2023-03-25 18:02
本发明专利技术提供的一种语言引导的多粒度特征融合目标分割方法及系统,方法包括:步骤100:采用SWINTransformer网络提取多粒度的视觉特征,采用Bert网络提取文本特征;步骤200:进行视觉与文本特征的特征融合;步骤300:采用卷积长短期记忆网络进行特征优化。通过将多粒度图像特征分别与语言特征进行融合来提高对整体与细节的表达能力,得到更精细化的分割结果,是对传统的目标跟踪方法的一种有效补充。是对传统的目标跟踪方法的一种有效补充。是对传统的目标跟踪方法的一种有效补充。

【技术实现步骤摘要】
一种语言引导的多粒度特征融合目标分割方法及系统


[0001]本专利技术涉及目标分割领域,尤其涉及一种语言引导的多粒度特征融合目标分割方法及系统。

技术介绍

[0002]目标分割是对图像中关注区域或具有特有属性的某类、某个目标进行分割定位的任务,主要包括语义分割、实例分割、语言引导的目标分割等具体技术。语义分割是对图像中的各类目标进行分割。实例分割是对图像中的各个目标进行分割。语言引导的目标分割,是对语言描述的特定目标进行分割,该任务需要同时对视觉模态和语言模态进行学习,在人物定位、人机交互、智能图像编辑等方面有良好的应用前景。
[0003]语言引导的目标分割既需要关注整体特征,通过语言引导正确的目标,又需要关注局部特征,达到精确分割的目的。以往的模型大多使用卷积神经网络及其变体提取视觉特征,循环神经网络提取文本特征,并在特征融合阶段进行了手段不一的优化来进行语言引导的目标分割,欠缺对图像全局特征与空间位置特征的表达,分割精度有待提高。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术以便提供克服上述问题或者至少部分地解决上述问题的一种语言引导的多粒度特征融合目标分割方法及系统。
[0005]根据本专利技术的一个方面,提供了一种语言引导的多粒度特征融合目标分割方法包括:
[0006]步骤100:采用SWIN Transformer网络提取多粒度的视觉特征,采用Bert网络提取文本特征;
[0007]步骤200:进行视觉与文本特征的特征融合;
[0008]步骤300:采用卷积长短期记忆网络进行特征优化。
[0009]可选的,所述步骤100:采用SWIN Transformer网络提取多粒度的视觉特征具体包括:
[0010]高为H宽为W的三维RGB输入图像经过窗口分割模块分为4
×
4个像素一组的窗口区域,得到了尺寸为维度的48维特征图,随后线性映射模块将特征图维度转化为C,再经过两层窗口变换自注意力模块得到尺寸为的C维特征图;
[0011]窗口变换自注意力在阶段一对图像中最小粒度的特征进行了提取;
[0012]阶段二三四中,首先将特征图进行窗口合并,将2
×
2的4个窗口合并为1个窗口,用于减小窗口数量并扩大特征的粒度,再分别经过2、18、2个窗口变换自注意力模块提取粒度越来越大的视觉特征,分别得到尺寸维度为的视觉特征;
[0013]利用1
×
1的卷积和双线性插值将不同粒度不同大小的视觉特征图进行特征归一化,得到尺寸的256维视觉特征V'
an

[0014]可选的,所述采用Bert网络提取文本特征具体包括:
[0015]利用Bert提取输入语言L的词向量L
e
∈R
l
,进行特征归一化得到文本特征
[0016]可选的,所述进行视觉与文本特征的特征融合具体包括:
[0017]将归一化后的不同粒度视觉特征分别与文本特征进行矩阵相乘融合,得到多粒度的融合特征;
[0018]多粒度融合特征计算过程如下公式所示
[0019]V'
an
=Bi(conv(Tran(V)))
[0020]L

e
=Bi(conv(Bert(L)))
[0021][0022]其中,n=1,2,3,4,Tran表示SWIN Transformer第n阶段计算,conv表示1
×
1卷积计算,Bi表示双线性插值法,表示矩阵相乘计算。
[0023]可选的,所述采用卷积长短期记忆网络进行特征优化具体包括:
[0024]从粒度最大的融合特征F4作为输入开始优化计算,经过首个卷积长短期网络得到输出H1和记忆信息C1,第二层卷积长短期记忆网络由融合特征F3、H1、C1作为输入,以此类推,最后得到第四层网络的输出H4作为跨模态优化特征;
[0025]其中,F
n
,n=1,2,3,4表示输入的融合特征,H
n
表示经过卷积长短期记忆网络计算得到的各层输出,C
n
表示卷积长短期记忆网络的记忆信息;
[0026]将跨模态优化特征进行双线性插值上采样为尺寸H
×
W的二分类,作为分割结果。
[0027]本专利技术还提供了一种语言引导的多粒度特征融合目标分割系统,所述分割系统包括:
[0028]特征提取模块,用于采用SWIN Transformer网络提取多粒度的视觉特征,采用Bert网络提取文本特征;
[0029]特征融合模块,用于进行视觉与文本特征的特征融合;
[0030]特征优化模块,用于采用卷积长短期记忆网络进行特征优化。
[0031]本专利技术提供的一种语言引导的多粒度特征融合目标分割方法及系统,方法包括:步骤100:采用SWIN Transformer网络提取多粒度的视觉特征,采用Bert网络提取文本特征;步骤200:进行视觉与文本特征的特征融合;步骤300:采用卷积长短期记忆网络进行特征优化。通过将多粒度图像特征分别与语言特征进行融合来提高对整体与细节的表达能力,得到更精细化的分割结果,是对传统的目标跟踪方法的一种有效补充。
[0032]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0033]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0034]图1是本专利技术模型总体框架图;
[0035]图2是SWIN Transformer结构示意图;
[0036]图3是窗口变换自注意力模块结构示意图;
[0037]图4是视觉特征提取流程示意图;
[0038]图5是文本特征提取流程示意图;
[0039]图6多粒度特征优化计算流程示意图。
具体实施方式
[0040]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0041]本专利技术的说明书实施例和权利要求书及附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。
[0042]下面结合附图和实施例,对本专利技术的技术方案做进一步的详细描述。
[0043]本专利技术提出了一种语言引导的目标分割方法。针对卷积神经网络对于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言引导的多粒度特征融合目标分割方法,其特征在于,所述分割方法包括:步骤100:采用SWINTransformer网络提取多粒度的视觉特征,采用Bert网络提取文本特征;步骤200:进行视觉与文本特征的特征融合;步骤300:采用卷积长短期记忆网络进行特征优化。2.根据权利要求1所述的一种语言引导的多粒度特征融合目标分割方法,其特征在于,所述步骤100:采用SWINTransformer网络提取多粒度的视觉特征具体包括:高为H宽为W的三维RGB输入图像经过窗口分割模块分为4
×
4个像素一组的窗口区域,得到了尺寸为维度的48维特征图,随后线性映射模块将特征图维度转化为C,再经过两层窗口变换自注意力模块得到尺寸为的C维特征图;窗口变换自注意力在阶段一对图像中最小粒度的特征进行了提取;阶段二三四中,首先将特征图进行窗口合并,将2
×
2的4个窗口合并为1个窗口,用于减小窗口数量并扩大特征的粒度,再分别经过2、18、2个窗口变换自注意力模块提取粒度越来越大的视觉特征,分别得到尺寸维度为越大的视觉特征,分别得到尺寸维度为的视觉特征;利用1
×
1的卷积和双线性插值将不同粒度不同大小的视觉特征图进行特征归一化,得到尺寸的256维视觉特征V'
an
。3.根据权利要求2所述的一种语言引导的多粒度特征融合目标分割方法,其特征在于,所述采用Bert网络提取文本特征具体包括:利用Bert提取输入语言L的词向量L
e
∈R
l
,进行特征归一化得到文本特征4.根据权利要求1所述的一种语言引导的多粒度特征融合目标分割方法...

【专利技术属性】
技术研发人员:王蓉谭荃戈李冲
申请(专利权)人:中国人民公安大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1