一种基于多模态视觉大模型的导盲场景识别方法技术

技术编号:46099372 阅读:8 留言:0更新日期:2025-08-12 18:19
本发明专利技术涉及计算机视觉领域和图像处理领域,特别涉及一种基于多模态视觉大模型的导盲场景识别方法。包括数据获取,采集典型导盲场景的图像或视频数据,标注后构建数据集,引入图像提示机制并划分训练集和测试集;构建多模态视觉大模型,包含图像编码、语义提示编码、视觉语言融合、场景分析语义解码模块;对模型测试与调优,采用多任务损失函数优化;构建导盲辅助系统,集成图像采集、视觉理解、语音播报功能,实现闭环流程。本发明专利技术解决了现有导盲识别技术目标依赖性强、通用性差、语义理解能力弱的问题,支持复杂场景精准识别与语义反馈,提升导盲系统智能化水平与环境适应能力。

【技术实现步骤摘要】

本专利技术涉及计算机视觉领域和图像处理领域,特别涉及一种基于多模态视觉大模型的导盲场景识别方法


技术介绍

1、在当前人工智能和感知智能迅猛发展的社会背景下,基于视觉理解与多模态感知的大模型技术正逐步成为提升环境认知与人机交互能力的核心手段。随着视觉大模型在图像识别、语义分割及多模态对齐等领域的持续突破,其在辅助感知、语义理解和场景解释等任务中的能力已得到广泛验证。尤其在面向弱势群体的智能辅助应用中,如何构建一个具备高泛化性和语义理解能力的视觉识别系统,已成为导盲辅助技术的重要研究方向。导盲场景识别作为连接环境感知与人类行动之间的关键环节,其本质是对动态、复杂、多变的真实环境进行多层次语义解构,并将结果以可感知的方式传达给盲人用户。

2、目前主流的导盲场景识别方法主要依赖于基于深度学习的目标检测算法。这类方法通过预先训练模型识别特定类别的障碍物或交通元素,从而辅助用户规避风险。然而,该类方法在实际应用中存在明显局限。其一,识别能力受限于训练数据集的目标范围,难以应对复杂城市环境中新出现的未知目标;其二,模型缺乏对全局场景的语义理解能力,难以提供本文档来自技高网...

【技术保护点】

1.一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤S1的具体实现为:

3.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤S2中图像编码模块的搭建步骤具体包括:

4.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤S2中语义提示编码模块的搭建步骤具体包括:

5.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤S2中视觉语言...

【技术特征摘要】

1.一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤s1的具体实现为:

3.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤s2中图像编码模块的搭建步骤具体包括:

4.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤s2中语义提示编码模块的搭建步骤具体包括:

5.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤s2中视觉语言融合模块vlm的搭建步骤具体包括:

6.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤s2中场景分析语义解码模块的...

【专利技术属性】
技术研发人员:汪晓璐李光辉
申请(专利权)人:江苏经贸职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1