一种基于跨模态视觉语言检索的施工安全风险预警方法及系统技术方案

技术编号:45538833 阅读:28 留言:0更新日期:2025-06-13 17:41
本发明专利技术涉及一种基于跨模态视觉语言检索的施工安全风险预警方法及系统,属于组合图像检索及多模态检索的技术领域,设计多粒度的图像‑文本语义特征解耦模块、多粒度特征组合模块、多粒度组合‑目标对齐模块,通过多粒度语义解耦技术,将图像和文本的局部特征和全局特征分别进行解耦,同时考虑多模态查询与目标图像之间的对齐,将多模态查询中的图像与文本的解耦特征进行多粒度组合,得到多模态查询的多粒度组合特征,从多粒度层面推动组合特征接近目标图像特征,实现多粒度细节层面的跨模态对齐,以更精准地对齐多模态查询和目标图像之间的语义信息,从而提升整体的跨模态理解和应用效果。

【技术实现步骤摘要】

本专利技术涉及一种基于跨模态视觉语言检索的施工安全风险预警方法及系统,尤其涉及了一种基于图视觉语言区域细粒度对齐的组合图像检索方法,属于组合图像检索及多模态检索的。


技术介绍

1、电力行业是国家基础设施建设的重要组成部分,在电力线路架设、变电站建设、设备安装和检修等施工活动中,施工场景往往复杂多变,涉及高空作业、密闭空间作业、带电作业等多种高危作业类型。一旦发生安全事故,可能造成严重的人员伤亡、设备损坏和经济损失。因此,施工安全风险的预警与管控是电力行业安全管理中的核心问题,也是保障施工人员生命安全和项目顺利实施的重要措施。然而,当前的施工现场安全风险预警技术仍面临诸多局限性:

2、(1)施工环境分布复杂,限制了预警技术的检索准确性。施工环境通常涵盖室内外、城市等多种环境,且各个环境的内部安全风险各不相同;

3、(2)信息孤岛化,限制了预警技术的跨模态表示能力。施工过程中所产生的大量图片、文本等多模态数据缺乏统一的表征;

4、(3)智能化不足,限制了预警技术的多模态语义理解。现有技术多基于单一模态(如图像或文本)的风险识本文档来自技高网...

【技术保护点】

1.一种基于跨模态视觉语言检索的施工安全风险预警方法,其特征在于,包括步骤如下:

2.根据权利要求1所述的基于跨模态视觉语言检索的施工安全风险预警方法,其特征在于,步骤(1)中,对给定三元组的各个元素进行理解并分别提取已对齐的图像和文本特征以及解耦图像和文本的语义特征的具体步骤包括:

3.根据权利要求2所述的基于跨模态视觉语言检索的施工安全风险预警方法,其特征在于,步骤1-1中,基于先进的预训练视觉语言模型CLIP的图像-文本编码器,分别对所输入的图像模态xr与文本模态tm,及对应的目标图像进行对齐特征提取,获取对齐的语义特征,具体的,

4.根据权利要...

【技术特征摘要】

1.一种基于跨模态视觉语言检索的施工安全风险预警方法,其特征在于,包括步骤如下:

2.根据权利要求1所述的基于跨模态视觉语言检索的施工安全风险预警方法,其特征在于,步骤(1)中,对给定三元组的各个元素进行理解并分别提取已对齐的图像和文本特征以及解耦图像和文本的语义特征的具体步骤包括:

3.根据权利要求2所述的基于跨模态视觉语言检索的施工安全风险预警方法,其特征在于,步骤1-1中,基于先进的预训练视觉语言模型clip的图像-文本编码器,分别对所输入的图像模态xr与文本模态tm,及对应的目标图像进行对齐特征提取,获取对齐的语义特征,具体的,

4.根据权利要求2所述的基于跨模态视觉语言检索的施工安全风险预警方法,其特征在于,步骤1-2中,基于图像-文本对齐特征,利用多层感知机及transformer架构进行多粒度的通道特征的解耦,为后续跨模态组合提供多粒度解耦特征信息,解耦过程如下:

5.根据权利要求1所述的基于跨模态视觉语言检索的施工安全风险预警方法,其特征在于,步骤(2)中...

【专利技术属性】
技术研发人员:林刚杨丽上官福钻
申请(专利权)人:平阳县昌泰电力实业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1