一种基于多尺度上下文聚合的多重关系复用网络制造技术

技术编号:43103687 阅读:16 留言:0更新日期:2024-10-26 09:46
本发明专利技术涉及计算机视觉与深度学习技术的前沿领域,提出了一种基于多尺度上下文聚合与多重关系复用的创新网络架构。该网络通过精心设计,能够高效地整合图像中不同尺度的上下文信息,从全局背景到局部细节进行全面捕捉,进而提升对复杂场景的理解能力。同时,网络内部实现了多重关系的复用,增强了跨层级特征之间的交互与融合,有效提升了图像识别、分割及增强等任务的精度与效率。特别地,在人体‑物体交互(HOI)检测等高级视觉任务中,本发明专利技术的网络展现出卓越的性能,为相关领域的研究与应用提供了强有力的技术支撑。

【技术实现步骤摘要】

本专利技术涉及计算机视觉,特别是针对图像处理和深度学习中的网络架构创新,具体是一种基于多尺度上下文聚合的多重关系复用网络。该网络旨在通过高效地整合多尺度上下文信息,并复用网络内部不同层级之间的关系,以提升图像识别、分割、增强等任务的性能。


技术介绍

1、在计算机视觉领域,人物交互(human-object interaction,hoi)检测作为一项核心的视觉关系检测任务,旨在图像中精准识别并定位参与交互的人物与物体,同时辨识出他们之间的具体动作或关系。这一任务的核心在于构建一个集成了位置信息、类别识别及交互动作分类的综合性信息框架,以实现对复杂场景的更全面理解。hoi检测不仅对于提升图像字幕生成、优化图像检索效率及强化视觉问题回答系统等下游任务具有显著价值,还通过<人,动词,物体>的三元组形式,为场景解析提供了结构化的语义框架。

2、传统上,图像理解任务如目标检测、动作识别和图像分割等,为hoi检测的研究奠定了坚实基础。随着深度学习技术的广泛应用,这些任务在图像语义分析层面取得了显著进展,如个体动作识别和姿态估计等。然而,面对图像本文档来自技高网...

【技术保护点】

1.一种基于多尺度上下文聚合的多重关系复用网络,其特征在于包含以下步骤:

2.如权利要求1所述方法,其特征在于,步骤1中的特征提取模块采用基于Transformer的架构作为解决方案。

3.如权利要求1所述方法,其特征在于,步骤2中对多尺度特征的聚合模块。

4.如权利要求1所述方法,其特征在于,步骤3中基于实例嵌入和交互嵌入的预测模块。

【技术特征摘要】

1.一种基于多尺度上下文聚合的多重关系复用网络,其特征在于包含以下步骤:

2.如权利要求1所述方法,其特征在于,步骤1中的特征提取模块采用基于transformer的架构作为解...

【专利技术属性】
技术研发人员:李建周昊哲张钰琪唐毅贾海涛许文波任利任金胜
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1