一种语言引导的多粒度特征融合目标分割方法及系统技术方案

技术编号：36983929 阅读：15 留言：0更新日期：2023-03-25 18:02

本发明专利技术提供的一种语言引导的多粒度特征融合目标分割方法及系统，方法包括：步骤100：采用SWINTransformer网络提取多粒度的视觉特征，采用Bert网络提取文本特征；步骤200：进行视觉与文本特征的特征融合；步骤300：采用卷积长短期记忆网络进行特征优化。通过将多粒度图像特征分别与语言特征进行融合来提高对整体与细节的表达能力，得到更精细化的分割结果，是对传统的目标跟踪方法的一种有效补充。是对传统的目标跟踪方法的一种有效补充。是对传统的目标跟踪方法的一种有效补充。

全部详细技术资料下载

【技术实现步骤摘要】
一种语言引导的多粒度特征融合目标分割方法及系统

[0001]本专利技术涉及目标分割领域，尤其涉及一种语言引导的多粒度特征融合目标分割方法及系统。

技术介绍

[0002]目标分割是对图像中关注区域或具有特有属性的某类、某个目标进行分割定位的任务，主要包括语义分割、实例分割、语言引导的目标分割等具体技术。语义分割是对图像中的各类目标进行分割。实例分割是对图像中的各个目标进行分割。语言引导的目标分割，是对语言描述的特定目标进行分割，该任务需要同时对视觉模态和语言模态进行学习，在人物定位、人机交互、智能图像编辑等方面有良好的应用前景。
[0003]语言引导的目标分割既需要关注整体特征，通过语言引导正确的目标，又需要关注局部特征，达到精确分割的目的。以往的模型大多使用卷积神经网络及其变体提取视觉特征，循环神经网络提取文本特征，并在特征融合阶段进行了手段不一的优化来进行语言引导的目标分割，欠缺对图像全局特征与空间位置特征的表达，分割精度有待提高。

技术实现思路

[0004]鉴于上述问题，提出了本专利技术以便提供克服上述问题或者至少部分地解决上述问题的一种语言引导的多粒度特征融合目标分割方法及系统。
[0005]根据本专利技术的一个方面，提供了一种语言引导的多粒度特征融合目标分割方法包括：
[0006]步骤100：采用SWIN Transformer网络提取多粒度的视觉特征，采用Bert网络提取文本特征；
[0007]步骤200：进行视觉与文本特征的特征融合；
[0008]步...

【技术保护点】

【技术特征摘要】
1.一种语言引导的多粒度特征融合目标分割方法，其特征在于，所述分割方法包括：步骤100：采用SWINTransformer网络提取多粒度的视觉特征，采用Bert网络提取文本特征；步骤200：进行视觉与文本特征的特征融合；步骤300：采用卷积长短期记忆网络进行特征优化。2.根据权利要求1所述的一种语言引导的多粒度特征融合目标分割方法，其特征在于，所述步骤100：采用SWINTransformer网络提取多粒度的视觉特征具体包括：高为H宽为W的三维RGB输入图像经过窗口分割模块分为4
×
4个像素一组的窗口区域，得到了尺寸为维度的48维特征图，随后线性映射模块将特征图维度转化为C，再经过两层窗口变换自注意力模块得到尺寸为的C维特征图；窗口变换自注意力在阶段一对图像中最小粒度的特征进行了提取；阶段二三四中，首先将特征图进行窗口合并，将2
×
2的4个窗口合并为1个窗口，用于减小窗口数量并扩大特征的粒度，再分别经过2、18、2个窗口变换自注意力模块提取粒度越来越大的视觉特征，分别得到尺寸维度为越大的视觉特征，分别得到尺寸维度为的视觉特征；利用1
×
1的卷积和双线性插值将不同粒度不同大小的视觉特征图进行特征归一化，得到尺寸的256维视觉特征V'
an
。3.根据权利要求2所述的一种语言引导的多粒度特征融合目标分割方法，其特征在于，所述采用Bert网络提取文本特征具体包括：利用Bert提取输入语言L的词向量L
e
∈R
l
，进行特征归一化得到文本特征4.根据权利要求1所述的一种语言引导的多粒度特征融合目标分割方法...

【专利技术属性】
技术研发人员：王蓉，谭荃戈，李冲，
申请(专利权)人：中国人民公安大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人