【技术实现步骤摘要】
本专利技术涉及计算机视觉,特别是针对图像处理和深度学习中的网络架构创新,具体是一种基于多尺度上下文聚合的多重关系复用网络。该网络旨在通过高效地整合多尺度上下文信息,并复用网络内部不同层级之间的关系,以提升图像识别、分割、增强等任务的性能。
技术介绍
1、在计算机视觉领域,人物交互(human-object interaction,hoi)检测作为一项核心的视觉关系检测任务,旨在图像中精准识别并定位参与交互的人物与物体,同时辨识出他们之间的具体动作或关系。这一任务的核心在于构建一个集成了位置信息、类别识别及交互动作分类的综合性信息框架,以实现对复杂场景的更全面理解。hoi检测不仅对于提升图像字幕生成、优化图像检索效率及强化视觉问题回答系统等下游任务具有显著价值,还通过<人,动词,物体>的三元组形式,为场景解析提供了结构化的语义框架。
2、传统上,图像理解任务如目标检测、动作识别和图像分割等,为hoi检测的研究奠定了坚实基础。随着深度学习技术的广泛应用,这些任务在图像语义分析层面取得了显著进展,如个体动作识别和姿态估
...【技术保护点】
1.一种基于多尺度上下文聚合的多重关系复用网络,其特征在于包含以下步骤:
2.如权利要求1所述方法,其特征在于,步骤1中的特征提取模块采用基于Transformer的架构作为解决方案。
3.如权利要求1所述方法,其特征在于,步骤2中对多尺度特征的聚合模块。
4.如权利要求1所述方法,其特征在于,步骤3中基于实例嵌入和交互嵌入的预测模块。
【技术特征摘要】
1.一种基于多尺度上下文聚合的多重关系复用网络,其特征在于包含以下步骤:
2.如权利要求1所述方法,其特征在于,步骤1中的特征提取模块采用基于transformer的架构作为解...
【专利技术属性】
技术研发人员:李建,周昊哲,张钰琪,唐毅,贾海涛,许文波,任利,任金胜,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。