【技术实现步骤摘要】
本专利技术涉及计算机视觉领域和图像处理领域,特别涉及一种基于多模态视觉大模型的导盲场景识别方法。
技术介绍
1、在当前人工智能和感知智能迅猛发展的社会背景下,基于视觉理解与多模态感知的大模型技术正逐步成为提升环境认知与人机交互能力的核心手段。随着视觉大模型在图像识别、语义分割及多模态对齐等领域的持续突破,其在辅助感知、语义理解和场景解释等任务中的能力已得到广泛验证。尤其在面向弱势群体的智能辅助应用中,如何构建一个具备高泛化性和语义理解能力的视觉识别系统,已成为导盲辅助技术的重要研究方向。导盲场景识别作为连接环境感知与人类行动之间的关键环节,其本质是对动态、复杂、多变的真实环境进行多层次语义解构,并将结果以可感知的方式传达给盲人用户。
2、目前主流的导盲场景识别方法主要依赖于基于深度学习的目标检测算法。这类方法通过预先训练模型识别特定类别的障碍物或交通元素,从而辅助用户规避风险。然而,该类方法在实际应用中存在明显局限。其一,识别能力受限于训练数据集的目标范围,难以应对复杂城市环境中新出现的未知目标;其二,模型缺乏对全局场景的语
...【技术保护点】
1.一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤S1的具体实现为:
3.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤S2中图像编码模块的搭建步骤具体包括:
4.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤S2中语义提示编码模块的搭建步骤具体包括:
5.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所
...【技术特征摘要】
1.一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤s1的具体实现为:
3.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤s2中图像编码模块的搭建步骤具体包括:
4.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤s2中语义提示编码模块的搭建步骤具体包括:
5.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤s2中视觉语言融合模块vlm的搭建步骤具体包括:
6.根据权利要求1所述的一种基于多模态视觉大模型的导盲场景识别方法,其特征在于,所述步骤s2中场景分析语义解码模块的...
【专利技术属性】
技术研发人员:汪晓璐,李光辉,
申请(专利权)人:江苏经贸职业技术学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。