System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于不确定性跨粒度证据特征融合网络的视觉意图理解方法、系统及存储介质技术方案_技高网
当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于不确定性跨粒度证据特征融合网络的视觉意图理解方法、系统及存储介质技术方案

技术编号:41736610 阅读:23 留言:0更新日期:2024-06-19 12:56
本发明专利技术公开了一种基于不确定性跨粒度证据特征融合网络的视觉意图理解方法、系统及存储介质,包括构建不确定性跨粒度证据特征融合网络,获得不同粒度下的各意图类别对应的二元隶属证据对;对齐证据对的跨粒度层次表示;构建证据指导的不确定性估计网络;融合来自不同粒度的意见;将训练图像经过跨粒度证据特征融合网络得到意图理解结果,送入二元证据损失函数,对不确定性跨粒度证据特征融合网络进行训练;将测试图像输入到训练好的跨粒度证据特征融合网络,获得对图像背后人类意图的理解结果。本发明专利技术还包括基于层次关系的跨粒度证据对齐策略,将不同粒度层下的结果对齐为统一的形式;基于不确定性的意见组合规则,融合来自不同粒度的意见。本发明专利技术将证据理论融入不确定性框架,利用不确定性指导跨粒度融合,增强了网络对跨粒度信息的表征能力,大大降低了意图类别歧义所带来的影响,提高对视觉内容的全面理解和对其背后人类意图的识别能力,从而提高人机视觉交互的能力。

【技术实现步骤摘要】

本专利技术涉及计算机视觉理解,特别是涉及一种基于不确定性跨粒度证据特征融合网络的视觉意图理解方法、系统及存储介质


技术介绍

1、视觉意图理解是一项多类别心理学任务,旨在理解与人类行为相关的图像背后的固有意图。视觉内容是社交媒体中主要的信息传递形式,在心理评估、图像字幕和视觉问答等各种应用中发挥着重要作用。与文本意图理解相比,视觉内容更为综合且难以处理,它涉及各种对象、背景和隐含关系。此外,由于人类意图高度主观,从视觉特征到意图类别的映射关系更加复杂,导致不同意图之间的区分模糊。具体来说,属于同一意图类别的图像内容极其多样丰富甚至完全不同,这些特征并不能用特定的形状、物体、场景所定义。意图类别不能通过简单地分割并识别图片中地视觉内容来得到,而是视觉内容之间复杂而又潜在的关系所决定的。同时,即使不同图片中有着完全相同的物体,它们所属的意图类别可能截然不同。例如,同样地一朵向日葵在阳光下绽放与在雨中凋零传达出“快乐”与“悲伤”两种相反的意图。

2、视觉意图理解已被应用于多个领域,主要集中在广告理解、政治宣传理解和人类行为背后的动机理解。广告理解强调图像、视频、广告语等多模态信息的共同影响;政治宣传理解倾向于关注个体的手势和面部表情;而动机理解则优先考虑人的行为。若要理解与人类行为相关的所有图像背后的内在意图,且只考虑单一的模态,则需要综合考虑图像中低级的视觉特征和高级的语义关系。与此外,在视觉特征与意图类别之间还存在着超出传统识别任务中一一对应的复杂关系。这些挑战导致意图类别之间存在较大的歧义。为了提高意图类别之间的区分能力,最近的研究从意图类别的层次树中获得多粒度特征,建立层次约束关系。

3、虽然现有的分层方法已经取得了不错的性能,但它们忽略了在不同粒度级别上类别歧义的不同程度。例如,许多方法只在输出层集成多粒度信息。进一步的,一些方法在特征层利用分层约束关系,将细粒度的输出转换为粗粒度的输入。这些方法否认了粒度级别的类别歧义程度差异,默认了跨粒度的结果可以平等地进行比较和集成。为了有效利用不同粒度的信息与各层次意图类别的约束关系来实现视觉意图的有效识别,需要设计一种能揭示不同粒度下意图类别之间不同的歧义程度、并以此为依据实现跨粒度融合的方法,能够有效解决上述问题。


技术实现思路

1、专利技术目的:本专利技术的目的是提供一种基于不确定性跨粒度证据特征融合网络的视觉意图理解方法、系统及存储介质,用于提高对图像视觉内容的全面理解与其背后的意图识别。

2、技术方案:为实现上述目的,本专利技术所述的一种基于不确定性跨粒度证据特征融合网络的视觉意图理解方法,包括以下步骤:

3、步骤1:构建不确定性跨粒度证据特征融合网络,包括图像特征提取网络、证据生成网络、证据指导的不确定性估计网络;

4、步骤2:基于图像特征提取网络和证据生成网络来获取训练图像中不同粒度下各意图类别对应的二元隶属证据对;

5、步骤3:对齐二元隶属证据对的跨粒度层次表示;

6、步骤4:利用证据指导的不确定性估计网络对不同粒度下各意图类别对应的二元隶属证据对,分配置信度和整体不确定性,以生成不同粒度下各意图类别的主观意见;

7、步骤5:融合来自不同粒度的主观意见,以获得训练图像在不同粒度下的意图理解;

8、步骤6:将训练图像在不同粒度下得到的意图理解结果送入二元证据损失函数,通过二元证据损失函数对步骤1的跨粒度证据特征融合网络进行监督训练,优化该网络参数;

9、步骤7:将测试图像输入到训练好的跨粒度证据特征融合网络之中,得到该图像的视觉意图理解,从而获取该图像背后的真实意图。

10、其中,步骤1所述的图像特征提取网络包括样本层面的图像特征提取器,其中,所述样本层面是指各样本只对应单一的特征图,所述特征提取器为一个预训练的卷积神经网络,用来提取训练图像的浅层视觉特征图;

11、所述的证据生成网络包括各个粒度层次上的证据生成网络,其输入为浅层视觉特征图,输出维度为k×2,最后一层为一个非负激活层;其中,所述粒度是指分析训练图像的不同层次,包括粗、中、细三种粒度层次。

12、其中,步骤2中利用图像特征提取网络和证据生成网络来获得所述训练图像中不同粒度下各意图类别对应的二元隶属证据对,具体为:先利用图像特征提取网络来提取训练图像的浅层视觉特征图;基于浅层视觉特征图,利用证据生成网络在不同粒度层次上分别生成与各个意图类别相对应的二元隶属证据对;其中二元隶属证据对代表了训练图像在不同粒度上与意图类别相关的特征信息,各意图类别代表训练图像表达的不同意义或目标。

13、其中,步骤2所述的二元隶属证据对表示为:其中,二元隶属证据对包括支持不隶属该类的证据和支持隶属该类的证据;k代表总的意图类别数,k指代某个意图类别,k=1,2,...,k,表示不隶属于意图类别k的证据,表示隶属意图类别k的证据。

14、其中,步骤3所述对齐证据对的跨粒度层次表示是由于不同粒度下意图类别数量不相同,二元隶属分类结果的维度也不相同,因此将不同粒度层次下二元隶属证据对的分类结果对齐为统一的形式;

15、所述对齐的方法包括一种基于层次关系的跨粒度证据对齐策略,其中,所述层次关系包括粗粒度类别对细粒度类别的约束关系、细粒度类别对粗粒度类别的补充关系;

16、所述跨粒度证据对齐包括:将细粒度下的证据对对齐为中粒度的形式、将中粒度下的证据对对齐为粗粒度的形式,所述跨粒度证据对齐策略是指对属于同一粗或中粒度类的子类进行分组,并将属于同一组的二元隶属证据对进行整合,对齐粗粒度结果的形式,所述整合方式如下:

17、

18、

19、其中,ki表示在粒度层m下的意图类别k的子类,表示不隶属于意图类别k的证据,表示隶属意图类别k的证据。

20、其中,步骤4所述的分配置信度和整体不确定性的过程为:所述的证据指导的不确定性估计网络通过狄利克雷分布结合二元隶属证据对,来分配意图类别的置信度和不确定性,所述的结合是指将狄利克雷分布的参数与二元隶属证据对进行关联,关联方式如下:

21、

22、基于狄利克雷分布为二元隶属证据对的意图类别k分配置信度:分配整体不确定性uk;

23、基于置信度和整体不确定性,形成意图类别k的主观意见ok为:

24、

25、其中,为狄利克雷强度,i={-,+},为信念质量。

26、其中,步骤5所述不同粒度的意见包括粗粒度层的意见、中粒度层的意见、中粒度层并集成为粗粒度层形式的意见、细粒度层的意见、细粒度层并集成为中粒度层形式的意见;

27、所述融合来自不同粒度的主观意见包括融合相同形式但来自不同粒度层的意见,具体包括来自粗粒度层的意见与来自中粒度层并集成为粗粒度层形式的意见的融合、来自中粒度层的意见与来自细粒度层并集成为中粒度层形式的意见的融合;

28、所述融合的方法包括由两个本文档来自技高网...

【技术保护点】

1.一种基于不确定性跨粒度证据特征融合网络的视觉意图理解方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于不确定性跨粒度证据特征融合网络的视觉意图理解方法,其特征在于,步骤1所述的图像特征提取网络包括样本层面的图像特征提取器,其中,所述样本层面是指各样本只对应单一的特征图,所述特征提取器为一个预训练的卷积神经网络,用来提取训练图像的浅层视觉特征图;

3.如权利要求1所述的基于不确定性跨粒度证据特征融合网络的视觉意图理解方法,其特征在于,步骤2中利用图像特征提取网络和证据生成网络来获得所述训练图像中不同粒度下各意图类别对应的二元隶属证据对,具体为:先利用图像特征提取网络来提取训练图像的浅层视觉特征图;基于浅层视觉特征图,利用证据生成网络在不同粒度层次上分别生成与各个意图类别相对应的二元隶属证据对;其中二元隶属证据对代表了训练图像在不同粒度上与意图类别相关的特征信息,各意图类别代表训练图像表达的不同意义或目标。

4.如权利要求2或3所述的基于不确定性跨粒度证据特征融合网络的视觉意图理解方法,其特征在于,步骤2所述的二元隶属证据对表示为:其中,二元隶属证据对包括支持不隶属该类的证据和支持隶属该类的证据;K代表总的意图类别数,k指代某个意图类别,k=1,2,...,K,表示不隶属于意图类别k的证据,表示隶属意图类别k的证据。

5.如权利要求1所述的基于不确定性跨粒度证据特征融合网络的视觉意图理解方法,其特征在于,步骤3所述对齐证据对的跨粒度层次表示是由于不同粒度下意图类别数量不相同,二元隶属分类结果的维度也不相同,因此将不同粒度层次下二元隶属证据对的分类结果对齐为统一的形式;

6.如权利要求1所述的基于不确定性跨粒度证据特征融合网络的视觉意图理解方法,其特征在于,步骤4所述的分配置信度和整体不确定性的过程为:所述的证据指导的不确定性估计网络通过狄利克雷分布结合二元隶属证据对,来分配意图类别的置信度和不确定性,所述的结合是指将狄利克雷分布的参数与二元隶属证据对进行关联,关联方式如下:

7.如权利要求1所述的基于不确定性跨粒度证据特征融合网络的视觉意图理解方法,其特征在于,步骤5所述不同粒度的意见包括粗粒度层的意见、中粒度层的意见、中粒度层并集成为粗粒度层形式的意见、细粒度层的意见、细粒度层并集成为中粒度层形式的意见;

8.如权利要求1所述的基于不确定性跨粒度证据特征融合网络的视觉意图理解方法,其特征在于,步骤6所述二元证据损失函数的公式为:

9.一种基于不确定性跨粒度证据特征融合网络的视觉意图理解系统,其特征在于:包括以下模块:

10.一种存储一个或多个程序的计算机可读存储介质,其特征在于:所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至8所述的方法中的任一方法。

...

【技术特征摘要】

1.一种基于不确定性跨粒度证据特征融合网络的视觉意图理解方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于不确定性跨粒度证据特征融合网络的视觉意图理解方法,其特征在于,步骤1所述的图像特征提取网络包括样本层面的图像特征提取器,其中,所述样本层面是指各样本只对应单一的特征图,所述特征提取器为一个预训练的卷积神经网络,用来提取训练图像的浅层视觉特征图;

3.如权利要求1所述的基于不确定性跨粒度证据特征融合网络的视觉意图理解方法,其特征在于,步骤2中利用图像特征提取网络和证据生成网络来获得所述训练图像中不同粒度下各意图类别对应的二元隶属证据对,具体为:先利用图像特征提取网络来提取训练图像的浅层视觉特征图;基于浅层视觉特征图,利用证据生成网络在不同粒度层次上分别生成与各个意图类别相对应的二元隶属证据对;其中二元隶属证据对代表了训练图像在不同粒度上与意图类别相关的特征信息,各意图类别代表训练图像表达的不同意义或目标。

4.如权利要求2或3所述的基于不确定性跨粒度证据特征融合网络的视觉意图理解方法,其特征在于,步骤2所述的二元隶属证据对表示为:其中,二元隶属证据对包括支持不隶属该类的证据和支持隶属该类的证据;k代表总的意图类别数,k指代某个意图类别,k=1,2,...,k,表示不隶属于意图类别k的证据,表示隶属意图类别k的证据。

5.如权利要求1所述的基于不确定性...

【专利技术属性】
技术研发人员:李新德徐文博胡川飞
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1